CN101425069B

CN101425069B - 视频场景关联值的获取方法及应用该方法的视频快速浏览和检索方法

Info

Publication number: CN101425069B
Application number: CN2008101375108A
Authority: CN
Inventors: 姚鸿勋; 纪荣嵘; 孙晓帅; 许鹏飞; 刘天强; 刘先明
Original assignee: Harbin Institute of Technology
Current assignee: Harbin Institute of Technology
Priority date: 2008-11-12
Filing date: 2008-11-12
Publication date: 2010-07-14
Anticipated expiration: 2028-11-12
Also published as: CN101425069A

Abstract

视频场景关联值的获取方法及应用该方法的视频快速浏览和检索方法，属于视频分析与理解领域。目的是解决视频浏览检索准确率和查全率不高的问题。本发明主要创新点在于：利用了视频镜头内部各个场景之间的物理关联线索，即不同表观的场景在同一视频镜头内共同出现的频度，来计算视频场景的关联关系G<V，L>，并利用视频场景之间的关联关系进行视频快速浏览与检索。本发明不受场景表观上的影响，能够准确的表达两个视频场景之间的物理关联关系，从而解决了传统方法准确率和查全率不高的问题。

Description

视频场景关联值的获取方法及应用该方法的视频快速浏览和检索方法

技术领域

本发明涉及视频场景之间的关联值的获取方法及应用该方法实现视频快速浏览和检索方法，属于视频分析与理解领域。

背景技术

由于现代人生活节奏较快，不少用户希望能够快速浏览视频中感兴趣的内容。目前用于视频浏览技术的检索项目有人物、地点、事件、物品、关键帧等，场景是视频的重要组成元素，也可以作为用户浏览和搜索视频的依据。但是现有的技术仅仅专注于采用何种方式(特征)对场景进行底层表达，有一定的局限性，检索结果准确率和查全率不高。现有技术忽视了场景在视频镜头内部的关联关系，由于镜头移动、缩放等操作，同一视频镜头内部会出现不同的场景，这些场景虽然在底层表达上没有什么相似之处，但从物理关联性上来讲，它们却是紧密联系的。

发明内容

本发明的目的是解决目前利用场景作为检索项目对视频进行浏览或检索时准确率和查全率不高，忽视场景内部的关联关系的问题，提供一种基于视频场景关联关系的视频快速浏览和检索方法。

本发明视频场景关联值的获取方法实现的步骤包括：

步骤a：对欲浏览的视频进行预处理，提取出多个关键帧；

步骤b：对所述多个关键帧利用K均值聚类算法进行聚类，初始化各视频场景之间的关联图G<V，L>，

其中，<V>表示视频场景类别的集合，<L>表示每两个视频场景之间的关联值的集合，所述集合<V>与<L>初始均为空；

步骤c：令m表示视频场景的变量，初始化该视频场景的变量m＝1；

步骤d：判断m是否满足m≤N，N表示视频场景的数量；

判断结果为是，执行下一步，判断结果为否，执行步骤l，

步骤e：初始化n＝1，n表示每个视频场景包括的关键帧的变量；

步骤f：判断n是否满足n≤Km，Km表示每个视频场景包括的关键帧数量；

判断结果为是，执行下一步，判断结果为否，执行步骤k，

步骤g：将n赋予p，p＝n，p表示两个视频场景之间的关联值；

步骤h：判断p是否满足p≤Km；

判断结果为是，执行下一步，判断结果为否，执行步骤j，

步骤i：将集合<L>中<Vn，Vp>对应的关联值p自增1，p＝p+1，

Vn表示第n个关键帧所属的视频场景的类别，Vp表示第p个关键帧所属的视频场景的类别；

然后执行步骤h，

步骤j：n＝n+1；

然后执行步骤f，

步骤k：m＝m+1；

然后执行步骤d，

步骤l：保存计算后的N个视频场景之间的新关联图G′<V，L′>，获得了每两个视频场景之间的关联值的集合<L′>，

N、Km均为自然数。

应用上述视频场景关联值的获取方法的视频快速浏览方法实现步骤包括：将所述N个视频场景按与目标场景之间的关联值从小到大排序，即N个视频场景按与目标视频场景之间相似度从小到大排序，进而完成视频场景的快速浏览。

应用上述视频场景关联值的获取方法的视频检索方法实现步骤包括：选取阈值T，保留所述N个视频场景中所有与目标视频场景之间的关联值大于T的视频场景，即获得与目标视频场景的相似度大于阈值T的视频场景，检索完成。

本发明的优点是：由于镜头移动、缩放等操作，同一视频镜头内部会出现不同的场景，这些场景虽然在底层表达上没有什么相似之处，但从物理关联性上来讲，它们却是紧密联系的。基于上述特性，本发明充分利用了视频镜头内部的物理关联信息，计算视频场景之间的关联值，实现视频场景的快速浏览和检索。

附图说明

图1是实施方式一的流程图。

具体实施方式

具体实施方式一：下面结合图1说明本实施方式，本实施方式所述的视频场景关联值的获取方法，实现该方法的步骤包括：

步骤a：对欲浏览的视频进行预处理，提取出多个关键帧；

其中，<V>表示视频场景类别的集合，<L>表示每两个视频场景之间的关联值的集合，初始为空；

步骤d：判断m是否满足m≤N，N表示视频场景的数量；

判断结果为是，执行下一步，判断结果为否，执行步骤l，

判断结果为是，执行下一步，判断结果为否，执行步骤k，

步骤g：将n赋予p，p＝n，p表示两个视频场景之间的关联值；

步骤h：判断p是否满足p≤Km；

判断结果为是，执行下一步，判断结果为否，执行步骤j，

步骤i：将集合<L>中<Vn，Vp>对应的关联值p自增1，p＝p+1，

然后执行步骤h，

步骤j：n＝n+1；

然后执行步骤f，

步骤k：m＝m+1；

然后执行步骤d，

N、Km均为自然数。

步骤a中所述的对欲浏览的视频进行预处理的方法为：

采用视频切分工具将欲浏览的视频分割成多个视频镜头，所述视频的分割准确率大于90％；抽取视频镜头的关键帧；利用高斯混合模型分离关键帧中的前景和背景；滤除背景比例在0.5以下的视频场景；提取关键帧背景的视觉底层特征，并定义相似度度量准则。以上对视频进行的预处理，利用现有技术，具体采用何种方法不限。

所述视觉底层特征可以采用颜色直方图、颜色相关图，纹理直方图，纹理共生矩阵等。

步骤b中所述的K均值聚类算法为：

K均值聚类算法接受输入量K；然后将n个数据对象划分为K个聚类以便使得所获得的聚类满足：同一聚类中的对象相似度较高；而不同聚类中的对象相似度较小。聚类相似度是利用各聚类中对象的均值所获得一个“中心对象”(引力中心)来进行计算的。

K均值聚类算法的工作过程说明如下：首先从步骤a提取的多个关键帧对象中任意选择s个对象作为初始聚类中心；而对于所剩下其它对象，则根据它们与所述s个初始聚类中心的相似度，分别将它们分配给与其最相似的聚类；然后重新计算每个聚类的聚类中心，即该聚类中所有对象的均值；不断重复上述过程，直到标准测度函数开始收敛为止，形成集合<V>，集合<V>中的每一个聚类代表一个视频场景类别，所述s为自然数。

一般都采用均方差作为标准测度函数，K个聚类具有以下特点：各聚类本身尽可能的紧凑，而各聚类之间尽可能的分开。

本步骤中集合<V>中存放的就是各聚类的集合，每个聚类作为一个场景类别，<L>表示每两个场景之间的关联值的集合，初始为空，在后续的步骤中会计算出每两个聚类(即每两个场景)之间的关联值。

步骤d中说明设定视频场景的数量为N，我们要计算N个视频场景中所有的每两个场景之间的关联值，所以设计此循环步骤。

步骤l计算得到的N个视频场景的新关联图G′<V，L′>就是我们想要的信息，根据这个新关联图，能够实现快速浏览和检索的功能。

具体实施方式二：本实施方式所述的应用实施方式一所述的视频场景关联值的获取方法的视频快速浏览方法，实现该方法的步骤包括：选定目标视频场景，将所述N个视频场景按与目标场景之间的关联值从小到大排序，即N个视频场景按与目标视频场景之间相似度从小到大排序，进而完成视频场景的快速浏览。

本实施方式中所述的目标视频场景是用户希望能够快速浏览视频中感兴趣的内容之一。场景是视频的重要组成元素，可以作为用户浏览和搜索视频的依据，我们首先选取一个感兴趣的一个场景，设定它为目标视频场景，然后，按照各视频场景与目标视频场景的关联程度的大小，将各个场景快速的排序，这样，就可以轻松的转到与选中场景相似度近的相关场景去观看感兴趣的视频，达到快速浏览的目的，而不用花费太多的时间去找相关的感兴趣的视频。

具体实施方式三：本实施方式所述的应用实施方式一所述的视频场景关联值的获取方法的视频检索方法，实现该方法的步骤包括：选定目标视频场景，选取阈值T，保留所述N个视频场景中所有与目标视频场景之间的关联值大于T的视频场景，即获得与目标视频场景的相似度大于阈值T的视频场景，检索完成；

完成检索功能后，为了让用户方便浏览，还可以包括：将检索获得的视频场景按关联值从小到大排序，即按照与目标视频场景的相似度进行排序。

在实际应用过程中，除了依据关联值排序之外，我们还可以同时选择利用视觉底层特征对视频场景进行排序，来实现更优化的快速浏览和检索功能，所述视觉底层特征有很多种，全局的有颜色直方图，颜色相关图，纹理直方图，纹理共生矩阵等等，局部的有SIFT、LBP等等，每个关键帧可以提取这些视觉特征，得到一定长度的特征向量。这些特征向量可以代表图像参与相似性的计算。提取特征之后，得到的是关键帧的特征向量，此时需要定义相似度量准则，即利用特征向量计算两个关键帧相似度的具体算法。可以采用最简单的欧式距离，当然采用其他的度量准则也可以(这主要还取决于对特征的选择)。下面针对欧式距离计算两个关键帧的相似度做一简单介绍：

N维向量的欧式距离：

Dis (\overset{&RightArrow;}{x}, \overset{&RightArrow;}{y}) = \sqrt{Σ_{i = 1}^{N} {(x_{i} - y_{i})}^{2}}

其中为归一化后的特征向量。(归一化：向量的所有维度值之和为1)两幅图像越相似，

就越小。可以以此定义一个相似度量函数。

Sim (\overset{&RightArrow;}{x}, \overset{&RightArrow;}{y}) = 1 - \frac{Dis (\overset{&RightArrow;}{x}, \overset{&RightArrow;}{y})}{\sqrt{2}}

两幅图像越相似，

就越大。最大值为1，最小值0。

Claims

1.视频场景关联值的获取方法，其特征在于实现该方法的步骤包括：

步骤a：对欲浏览的视频进行预处理，提取出多个关键帧；

步骤d：判断m是否满足m≤N，N表示视频场景的数量；

判断结果为是，执行下一步，判断结果为否，执行步骤l，

判断结果为是，执行下一步，判断结果为否，执行步骤k，

步骤g：将n赋予p，p＝n，p表示两个视频场景之间的关联值；

步骤h：判断p是否满足p≤Km；

判断结果为是，执行下一步，判断结果为否，执行步骤j，

步骤i：将集合<L>中<Vn，Vp>对应的关联值p自增1，p＝p+1，

然后执行步骤h，

步骤j：n＝n+1；

然后执行步骤f，

步骤k：m＝m+1；

然后执行步骤d，

N、Km均为自然数。

2.根据权利要求1所述的视频场景关联值的获取方法，其特征在于步骤a中所述的对欲浏览的视频进行预处理的方法为：

采用视频切分工具将欲浏览的视频分割成多个视频镜头，所述视频的分割准确率大于90％；抽取视频镜头的关键帧；利用高斯混合模型分离关键帧中的前景和背景；滤除背景比例在0.5以下的视频场景；提取关键帧背景的视觉底层特征，并定义相似度度量准则。

3.根据权利要求1所述的视频场景关联值的获取方法，其特征在于步骤b所述的K均值聚类算法为：

首先从步骤a提取的多个关键帧对象中任意选择s个对象作为初始聚类中心；而对于所剩下其它对象，则根据它们与所述s个初始聚类中心的相似度，分别将它们分配给与其最相似的聚类；然后重新计算每个聚类的聚类中心，具体为该聚类中所有对象的均值；不断重复上述过程，直到标准测度函数开始收敛为止，形成集合<V>，集合<V>中的每一个聚类代表一个视频场景类别，所述s为自然数。

4.应用权利要求1所述的视频场景关联值的获取方法的视频快速浏览方法，其特征在于它包括：选定目标视频场景，将所述N个视频场景按与目标场景之间的关联值从小到大排序，具体为：将N个视频场景按与目标视频场景之间相似度从小到大排序，进而完成视频场景的快速浏览。

5.应用权利要求1所述的视频场景关联值的获取方法的视频检索方法，其特征在于它包括：选定目标视频场景，选取阈值T，保留所述N个视频场景中所有与目标视频场景之间的关联值大于T的视频场景，获得与目标视频场景的相似度大于阈值T的视频场景，检索完成。

6.根据权利要求5所述的视频场景关联值的获取方法的视频检索方法，其特征在于它还包括：将检索获得的视频场景按关联值从小到大排序，具体是按照与目标视频场景的相似度从小到大进行排序。