CN103902569A

CN103902569A - 基于Bag of Words的视频匹配方法

Info

Publication number: CN103902569A
Application number: CN201210578139.5A
Authority: CN
Inventors: 屈景春; 吴军
Original assignee: CHONGQING KAIZE TECHNOLOGY Co Ltd
Current assignee: CHONGQING KAIZE TECHNOLOGY Co Ltd
Priority date: 2012-12-27
Filing date: 2012-12-27
Publication date: 2014-07-02

Abstract

本发明涉及一种基于Bag of Words的视频匹配方法，具体步骤如下：（a）提取图像的局部特征；（b）量化图像的局部特征，构建视觉关键词辞典；（c）将图像表示为由若干视觉关键词组成的集合。本发明的基于BagofWords的视频匹配方法，将视频子镜头描述为若干视觉关键词组成的序列,在保留局部特征的同时压缩了视频的索引数据，并在此基础上构建了基于子镜头特征编码的倒排索引表，解决了视频子镜头的快速查找和匹配的问题，比传统基于特征相似性比较的方法具有更高的匹配精度和更快的检索速度。

Description

基于Bag of Words的视频匹配方法

技术领域

本发明涉及一种基于Bag of Words的视频匹配方法。

背景技术

随着电视节目的积累和网络视频的普及，视频数据库的规模和容量正在迅速增加，于是自动地对大量的并且正在不断增加的视频进行分析和理解成为一项越来越紧迫的任务。与此同时，如何组织视频数据并实现快速检索也成为越来越重要的研究课题。

对于视频检索，现有通用的方法主要是通过手动的方法对视频中的内容进行标注，然后按照这种标注对视频进行组织和索引。这种方法的缺点是在大量甚至海量的视频样本空间中，使用手工标注是一件费时费力的工作，同时使用若干标注词或者文字段落很难将视频中全部的内容都表述清楚。所以从发展的角度来看，对于海量的视频存储组织与索引应当更多地从视频的内容出发，在视频库中找到与目标视频最匹配的视频。

大样本空间中的视频匹配技术是根据用户提交的待查询视频，在视频数据库中查找与其内容一致的视频片段。比如对一个包含多个广告的视频序列，在视频数据库中进行查找与其内容一致的视频片段，根据匹配查找的结果就能得到对应广告视频的具体信息，并且能够确定该广告出现在该视频序列中的位置。

视频匹配技术与传统的基于内容的视频检索(content-based video retrieval)存在许多相似之处。基于内容的视频检索，是根据用户提交的视频实例，在视频数据库中查找与其相似的视频片断，其基本思想是提取视频片段的特征并计算与视频数据库中各视频片断的相似度，通过对相似度从高到底排列得到检索结果。虽然视频检索和视频匹配的目标都是为了实现目标视频的一到多的查询，但两者仍存在显著的差异。视频检索更注重相似度度量方面的研究，关心如何快速查找出与查询相关的视频，视频匹配更注重视频数据的建模和索引，关心如何快速查找出查询视频中与视频样本一致的视频片段。

由于视频的内在特性，顺序扫描并计算视频片段相似性的方法在视频匹配问题中效率低下。许多研究者提出了不同的视频建模方法以提高相似性查询的效率。文献[1]采用随机采样的办法，将视频描述为若干关键帧ViSig(Video Signature)的集合，以达到压缩视频索引提高查询速度的目的。但以帧为单位建立索引，忽略了视频序列中各帧的时间顺序，影响了查询精度。文献[2]提出了一种介于镜头和帧之间的视频表示形式，并以此为基本单位提取全局特征，通过K均值聚类的方法加速了高维索引查询过程，但查询精度易受聚类效果影响。文献[3]在文献[2]的基础上利用VA-File (vector- approximation file)组织视频数据库，通过数据压缩和近似计算提高查询效率。这些方法或者从视频帧或者从视频片段中提取高维的特征向量以实现视频的相似性计算，但由于要同时考虑全局和局部的特征，即使使用了不同的降维方法，高维特征的索引和相似性计算的代价仍然是视频检索和匹配系统的一大瓶颈。

发明内容

本发明要解决的技术问题是：为了克服上述中存在的问题，提供一种基于Bag of Words的视频匹配方法。

本发明解决其技术问题所采用的技术方案是：一种基于Bag of Words的视频匹配方法，其特征是具体步骤如下：

（a）提取图像的局部特征；

（b）量化图像的局部特征，构建视觉关键词辞典；

（c）将图像表示为由若干视觉关键词组成的集合。

（a）中提取图像的局部特征的具体步骤如下：步骤1：将一个镜头内部的内容分解为复数个子镜头；

步骤2：对每个子镜头内每一帧图像进行特征抽取：（1）图像的统计特征；（2）局部区域的兴趣点描述子；

步骤3：选择64维亮度直方图作为图像的统计特征；选择计算8*8=64维SIFT描述子作为兴趣点描述子；将每帧图像分为4×4=16个区域；

步骤4：利用在线滑动窗口的方法提取子镜头，其具体算法步骤如下：

（1）利用子镜头依次进行输入视频V，提取当前帧图像T _m，提取帧特征F _m，当前活动子镜头的特征S _n；

（2）计算S _n和F _m之间的距离，。

（b）量化图像的局部特征，构建视觉关键词辞典的具体步骤如下：（1）输入视频；

（2）对输入视频利用子镜头分割特征提取；

（3）将提取到的特征输入视觉关键词辞典；

（4）视觉关键词辞典构建后进行子镜头特征量化；

（5）量化后的子镜头特征作为索引的基本单位，用于构建出子镜头编码索引表和子镜头倒排索引表。

（c）将图像表示为由若干视觉关键词组成的集合的具体步骤如下：（1）提取局部特征，视频数据库中子镜头的所有子区域特征被k-means聚类方法量化为k个离散的特征向量，k个均值特征向量为局部特征对应的视觉关键词；

（2）子镜头的每个子区域特征被映射到这k个视觉关键词中，并用该视觉关键词对应的标号(1…k)表示；

（3）子镜头则相应地表示为16个整数，当中的每个整数与子区域映射的视觉关键词的标号对应。

本发明的有益效果是，本发明的基于Bag of Words的视频匹配方法，将视频子镜头描述为若干视觉关键词组成的序列, 在保留局部特征的同时压缩了视频的索引数据，并在此基础上构建了基于子镜头特征编码的倒排索引表，解决了视频子镜头的快速查找和匹配的问题，比传统基于特征相似性比较的方法具有更高的匹配精度和更快的检索速度。

附图说明

下面结合附图和实施例对本发明进一步说明。

图1是本发明的子镜头分割流程图；

图2是本发明子镜头分割示例图；

图3是本发明子镜头检索流程图；

图4是本发明子镜头的表示方法示意图。

具体实施方式

现在结合附图对本发明作进一步详细的说明。这些附图均为简化的示意图，仅以示意方式说明本发明的基本结构，因此其仅显示与本发明有关的构成。

本发明的基于Bag of Words的视频匹配方法，具体步骤如下：

（a）提取图像的局部特征；

（b）量化图像的局部特征，构建视觉关键词辞典；

（c）将图像表示为由若干视觉关键词组成的集合。

如图1和图2所示的基于Bag of Words的视频匹配方法，（a）中提取图像的局部特征的具体步骤如下：步骤1：将一个镜头内部的内容分解为复数个子镜头；

（2）计算S _n和F _m之间的距离，。

如图3所示的基于Bag of Words的视频匹配方法，（b）量化图像的局部特征，构建视觉关键词辞典的具体步骤如下：（1）输入视频；

（2）对输入视频利用子镜头分割特征提取；

（3）将提取到的特征输入视觉关键词辞典；

（4）视觉关键词辞典构建后进行子镜头特征量化；

如图4所示的基于Bag of Words的视频匹配方法，（c）将图像表示为由若干视觉关键词组成的集合的具体步骤如下：（1）提取局部特征，视频数据库中子镜头的所有子区域特征被k-means聚类方法量化为k个离散的特征向量，k个均值特征向量为局部特征对应的视觉关键词；

以上述依据本发明的理想实施例为启示，通过上述的说明内容，相关工作人员完全可以在不偏离本项发明技术思想的范围内，进行多样的变更以及修改。本项发明的技术性范围并不局限于说明书上的内容，必须要根据权利要求范围来确定其技术性范围。

Claims

1.一种基于Bag of Words的视频匹配方法，其特征是具体步骤如下：

（a）提取图像的局部特征；

（b）量化图像的局部特征，构建视觉关键词辞典；

（c）将图像表示为由若干视觉关键词组成的集合。

2.根据权利要求1所述的基于Bag of Words的视频匹配方法，其特征是：（a）中提取图像的局部特征的具体步骤如下：步骤1：将一个镜头内部的内容分解为复数个子镜头；

（2）计算S _n和F _m之间的距离，。

3.根据权利要求1所述的基于Bag of Words的视频匹配方法，其特征是：（b）量化图像的局部特征，构建视觉关键词辞典的具体步骤如下：（1）输入视频；

（2）对输入视频利用子镜头分割特征提取；

（3）将提取到的特征输入视觉关键词辞典；

（4）视觉关键词辞典构建后进行子镜头特征量化；

4.根据权利要求1所述的基于Bag of Words的视频匹配方法，其特征是：（c）将图像表示为由若干视觉关键词组成的集合的具体步骤如下：（1）提取局部特征，视频数据库中子镜头的所有子区域特征被k-means聚类方法量化为k个离散的特征向量，k个均值特征向量为局部特征对应的视觉关键词；