CN104376003A

CN104376003A - 一种视频检索方法及装置

Info

Publication number: CN104376003A
Application number: CN201310351539.7A
Authority: CN
Inventors: 梅树起; 刘伯兴
Original assignee: Shenzhen Tencent Computer Systems Co Ltd
Current assignee: Shenzhen Tencent Computer Systems Co Ltd
Priority date: 2013-08-13
Filing date: 2013-08-13
Publication date: 2015-02-25
Anticipated expiration: 2033-08-13
Also published as: CN104376003B

Abstract

本发明公开了一种视频检索方法，用于基于视频内容的快速视频检索，该方法包括：预先建立倒排文档，倒排文档中包括标准特征分类与标准特征分类中对应的标准视频的索引；提取待检索视频中的关键帧并提取关键帧中的局部特征；将提取到的局部特征进行合并，生成包含全部局部特征的广义关键帧；将广义关键帧在倒排文档中进行倒排索引，获得第一检索结果，第一检索结果包括待检索视频与索引获得的对应的标准视频列表。本发明还公开了一种视频检索装置。

Description

一种视频检索方法及装置

技术领域

本发明涉及计算机技术领域，具体涉及一种视频检索方法及装置。

背景技术

随着互联网技术的发展，网络带宽以及数据传输不再存在瓶颈，人们已经不再满足于单纯文字的传输，开始越来越多地在互联网上进行图像以及视频的分享和应用。因此，用户可能会面对大量的视频文件内容，进而有进行视频检索的需求。例如，用户有一小段视频文件，想要获得该段视频文件所对应的完整视频，就需要进行视频的快速检索。

现有技术中，应用的比较广泛的视频检索系统一般是基于视频属性或者视频标题方面的检索，这样可以将视频检索转换为文字检索。但是，这种视频检索方法准确率低，现有技术中还没有一种高速准确地基于视频内容的视频检索方法。

发明内容

有鉴于此，本发明的主要目的是提供一种视频检索方法及装置，以实现高速准确地基于视频内容对视频进行检索。

为解决上述问题，本发明提供的技术方案如下：

一种视频检索方法，所述方法包括：

预先建立倒排文档，所述倒排文档中包括标准特征分类与所述标准特征分类中对应的标准视频的索引；

提取待检索视频中的关键帧并提取所述关键帧中的局部特征；

将提取到的所述局部特征进行合并，生成包含全部局部特征的广义关键帧；

将所述广义关键帧在所述倒排文档中进行倒排索引，获得第一检索结果，所述第一检索结果包括所述待检索视频与索引获得的对应的标准视频列表。

相应的，所述预先建立倒排文档包括：

提取所述标准视频中的关键帧并提取所述关键帧中的局部特征作为标准特征；

利用若干个所述标准特征训练K-means树模型，所述K-means树的叶子节点包括特征均值向量以及量化索引，所述叶子节点作为标准特征分类；

将全部所述标准特征在所述K-means树模型中进行遍历，根据所述标准特征与所述叶子节点的特征均值向量的相似性度量，判断所述标准特征是否与所述K-means树模型的叶子节点匹配；

如果是，获得所述标准特征对应的所述叶子节点的量化索引，在该叶子节点上添加该标准特征所对应的标准视频的索引，从而建立倒排文档。

相应的，所述提取待检索视频中的关键帧，包括：

对待检索视频进行解码；

对解码后的待检索视频的每帧图像进行RGB-HSV颜色空间转换；

利用相邻两帧或多帧图像的HSV直方图的差异性进行待检索视频的场景分割；

每个场景选取一帧图像作为待检索视频中的关键帧，所述关键帧是与该场景的其他图像帧差异性最小的一帧。

相应的，所述局部特征为旋转不变性特征，所述提取所述关键帧中的局部特征，包括：

对所述关键帧中的极值点进行检测；

精确定位所述极值点；

计算所述极值点的主方向；

生成所述极值点的向量描述，作为所述关键帧中的局部特征。

相应的，所述将所述广义关键帧在所述倒排文档中进行倒排索引，包括：

将所述广义关键帧的全部所述局部特征在所述倒排文档中进行遍历，根据所述局部特征与所述叶子节点的特征均值向量的相似性度量，判断所述局部特征是否与所述K-means树模型的叶子节点匹配，如果是，记录该叶子节点对应的标准视频，当记录的标准视频次数达到预设阈值时，则该标准视频与所述待检索视频对应，获得第一检索结果。

相应的，所述方法还包括：

将第一检索结果索引获得的标准视频进行视频时序筛选验证，获得第二检索结果。

一种视频检索装置，所述装置包括：

建立单元，用于预先建立倒排文档，所述倒排文档中包括标准特征分类与所述标准特征分类中对应的标准视频的索引；

第一提取单元，用于提取待检索视频中的关键帧；

第二提取单元，用于提取所述关键帧中的局部特征；

生成单元，用于将提取到的所述局部特征进行合并，生成包含全部局部特征的广义关键帧；

索引单元，用于将所述广义关键帧在所述倒排文档中进行倒排索引，获得第一检索结果，所述第一检索结果包括所述待检索视频与索引获得的对应的标准视频列表。

相应的，所述建立单元包括：

提取子单元，用于提取所述标准视频中的关键帧并提取所述关键帧中的局部特征作为标准特征；

训练子单元，用于利用若干个所述标准特征训练K-means树模型，所述K-means树的叶子节点包括特征均值向量以及量化索引，所述叶子节点作为标准特征分类；

第一量化子单元，用于将全部所述标准特征在所述K-means树模型中进行遍历，根据所述标准特征与所述叶子节点的特征均值向量的相似性度量，判断所述标准特征是否与所述K-means树模型的叶子节点匹配；

添加子单元，用于如果所述标准特征与所述K-means树模型的叶子节点匹配，获得所述标准特征对应的所述叶子节点的量化索引，在该叶子节点上添加该标准特征所对应的标准视频的索引，从而建立倒排文档。

相应的，所述第一提取单元包括：

解码子单元，用于对待检索视频进行解码；

转换子单元，用于对解码后的待检索视频的每帧图像进行RGB-HSV颜色空间转换；

分割子单元，用于利用相邻两帧或多帧图像的HSV直方图的差异性进行待检索视频的场景分割；

选取子单元，用于每个场景选取一帧图像作为待检索视频中的关键帧，所述关键帧是与该场景的其他图像帧差异性最小的一帧。

相应的，所述局部特征为旋转不变性特征，所述第二提取单元包括：

检测子单元，应用对所述关键帧中的极值点进行检测；

定位子单元，用于精确定位所述极值点；

计算子单元，用于计算所述极值点的主方向；

生成子单元，用于生成所述极值点的向量描述，作为所述关键帧中的局部特征。

相应的，所述索引单元具体用于：

相应的，所述装置还包括：

验证单元，用于将第一检索结果索引获得的标准视频进行视频时序筛选验证，获得第二检索结果。

由此可见，本发明具有如下有益效果：

本发明实施例通过待检索视频中的关键帧进行视频索引，实现了基于内容的视频搜索，通过将一个待检索视频的全部关键帧中的全部局部特征合并为一帧广义关键帧，即一个待检索视频通过对一个广义关键帧的检索就可以完成视频搜索，实现了在海量标准视频中对待检索视频的快速检索。另外，通过视频时序筛选可以去除干扰视频，获得更为准确的检索结果。

附图说明

图1为本发明实施例视频检索方法实施例一的流程图；

图2为本发明实施例视频检索方法实施例二的流程图；

图3为本发明实施例中K-means树模型的示意图；

图4为本发明实施例视频检索方法实施例三的流程图；

图5为本发明实施例中量化HSV直方图的示意图；

图6为本发明实施例视频检索方法实施例四的流程图；

图7为本发明实施例中计算极值点主方向的示意图；

图8为本发明实施例视频检索方法实施例五的流程图；

图9为本发明实施例视频检索方法实施例六的流程图；

图10为本发明实施例视频检索装置实施例的示意图；

图11为本发明实施例视频检索装置中建立单元实施例的示意图；

图12为本发明实施例视频检索装置中第一提取单元实施例的示意图；

图13为本发明实施例视频检索装置中第二提取单元实施例的示意图；

图14为本发明实施例提供的一种服务器的结构示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明实施例作进一步详细的说明。

本发明视频检索方法及装置，是针对现有技术中无法实现高速准确地基于视频内容的视频检索，提出利用标准视频库建立倒排文档，提取通过提取视频关键帧及关键帧中的局部特征，将一个视频的全部局部特征组合为一帧广义关键帧代表该视频，利用广义关键帧在倒排文档中进行索引，从而实现基于内容的快速视频检索。

基于上述思想，参见图1所示，本发明视频检索方法实施例一可以包括以下步骤：

步骤101：预先建立倒排文档，倒排文档中包括标准特征分类与标准特征分类中对应的标准视频的索引。

可以利用海量视频库建立倒排文档，倒排文档可以离线建立，它是文档检索系统中的一种数据结构。在本发明实施例中，倒排文档的概念被引入到视频搜索中，可以记录一个单词（即特征）的水平反向索引，即该单词对应出现的每一个视频文档的记录索引。

在本发明的一些实施例中，倒排文档的建立可以通过训练K-means树模型建立一个标准特征分类模型，将标准特征聚类到K-means树的叶子节点，叶子节点可以作为标准特征分类，叶子节点可以包括特征均值向量以及量化索引，量化索引可以理解为叶子节点的标识，如ID号。则每个K-means 树的叶子节点上可以添加在该聚类下的标准特征所对应的标准视频的索引，例如记录叶子节点上所添加的标准视频ID，建立后续视频检索所需要的倒排文档。

步骤102：提取待检索视频中的关键帧并提取关键帧中的局部特征。

关键帧可以指视频中角色或者物体运动或场景变化中的关键动作所处的一帧图像，在本发明的实施例中关键帧可以代表某个视频中某个场景的稳定代表图像，即关键帧是与该场景的其他图像帧差异性最小的一帧。

局部特征是指图像中一些比较局部的描述子，用来表述图像的唯一性和差异性。提取关键帧中的局部特征，为了找到可以代表待检索视频的具有唯一性和差异性的特征。

在本发明的一些实施例中，局部特征可以但不限定为旋转不变性特征sift特征，sift特征（Scale-invariant feature transform，旋转不变性特征）是一种局部特征，可以用来描述图像的差异性。

步骤103：将提取到的局部特征进行合并，生成包含全部局部特征的广义关键帧。

将提取到的每个关键帧的多个局部特征进行合并，相当于将一个待检索视频的全部局部特征组成一个特征序列，即组成一个包含全部局部特征的广义关键帧，则这个广义关键帧可以代表该待检索视频去除时序特征的视频内容本身的特征。

将待检索视频的各个关键帧的局部特征拼接成一帧广义关键帧，则将视频搜索可以转换为一次图像搜索，大大提高了视频搜索的速度，避免了逐帧迭代搜索的巨大时间开销。

步骤104：将广义关键帧在倒排文档中进行倒排索引，获得第一检索结果，第一检索结果包括待检索视频与索引获得的对应的标准视频列表。

广义关键帧中的各个局部特征在倒排文档进行遍历，确定局部特征属于哪个叶子节点，记录该叶子节点下所对应的标准视频标识（视频ID号），当各个局部特征在倒排文档遍历完成，标准视频被记录的次数达到预设阈值时，则可以认为这些标准视频与待检索视频对应。

由此可见，本发明实施例通过待检索视频中的关键帧进行视频索引，实现了基于内容的视频搜索，通过将一个待检索视频的全部关键帧中的全部局部特征合并为一帧广义关键帧，即一个待检索视频通过对一个广义关键帧的检索就可以完成视频搜索，实现了在海量标准视频中对待检索视频的快速检索。

参见图2所示，在本发明的一些实施例中，预先建立倒排文档的具体实现过程可以包括：

步骤201：提取标准视频中的关键帧并提取关键帧中的局部特征作为标准特征。

提取标准视频中的关键帧与提取关键帧中的局部特征作为标准特征与上述实施例中提取待检索视频中的关键帧与提高提取关键帧中的局部特征的过程基本类似。

步骤202：利用若干个标准特征的量化值训练K-means树模型，K-means树的叶子节点包括特征均值向量以及量化索引，所述叶子节点作为标准特征分类。

K-means是一种聚类算法，采用距离作为相似性的评价指标，即认为两个对象的距离越近，其相似度就越大。该算法认为簇是由距离靠近的对象组成的，因此把得到紧凑且独立的簇作为最终目标。

K-means树的训练，在实际应用中，例如选取训练样本数为3万帧关键帧对应90万个标准特征，采用K-means算法训练的K-means树为2层250叉树，该K-means树模型参见图3所示，保留每个叶子节点的聚类中心，聚类中心可以是一个特征的均值向量，则K-means树的叶子节点可以包括特征均值向量以及该叶子节点的量化索引，每个叶子节点可以理解为一个特征分类。

步骤203：将全部标准特征在K-means树模型中进行遍历，根据所述标准特征与叶子节点的特征均值向量的相似性度量，判断标准特征是否与K-means树模型的叶子节点匹配。

该过程是一个量化的过程，量化是对高维特征采用低维特征来进行描述的一种方式，类似于降维。根据标准特征与叶子节点的特征均值向量的相似性度量，可以判断标准特征是否与K-means树模型的叶子节点匹配，即对标准特征量化可以获得其对应的K-means树模型的叶子节点，则标准特征可以由128维向量描述，量化为一个所对应的叶子节点的量化索引即一个2维向量。

步骤204：如果标准特征与K-means树模型的叶子节点匹配，获得标准特征对应的叶子节点的量化索引，在该叶子节点上添加该标准特征所对应的标准视频的索引，从而建立倒排文档。

将全部标准特征在K-means树模型中进行遍历，寻找标准特征添加到哪个叶子节点上，记录每个叶子节点上的标准特征所对应的标准视频，即每个叶子节点上的若干个标准特征所对应的标准视频标识作为索引都被记录下来，完成倒排文档的建立。

预先建立倒排文档的实现过程可以为离线建立，也可以根据标准视频库的更新而不断更新。

通过建立K-means树模型的方式建立倒排文档，可以加快特征对比的速度，例如，2层250叉树的K-means树模型，一个特征仅需对比2*250次就可以获得最终对应的特征分类，相较于逐个特征对比确定特征分类的速度提高很多。另外，需要注意的是，通过K-means树模型预先建立倒排文档的方式是较为优选的实施方法，但并不局限于这种方式。

参见图4所示，在本发明的一些实施例中，提取待检索视频中的关键帧的具体实现过程可以包括：

步骤401：对待检索视频进行解码。

将待检索视频解码为一帧一帧的图像，在实际应用中可以调用OpenCV进行视频解码。

步骤402：对解码后的待检索视频的每帧图像进行RGB-HSV颜色空间转换。

RGB颜色空间使用R、G、B，3个颜色通道可以表示任何的颜色、灰度级。HSV颜色空间使用色度、灰度、亮度来表示颜色。进行RGB-HSV颜色空间转换为后续提取待检索视频中的关键帧进行图像的预处理。

步骤403：利用相邻两帧或多帧图像的HSV直方图的差异性进行待检索视频的场景分割。

获得了解码后的视频图像后，对获得每帧图像的HSV直方图。HSV直方图所描述的是不同色彩在整幅图像中所占的比例。

计算HSV直方图需要将HSV颜色空间划分成若干个小的颜色区间，每个小区间成为直方图的一个bin。这个过程称为颜色量化。然后，通过计算颜色落在每个小区间内的像素数量可以得到HSV直方图。

颜色量化有许多方法，例如向量量化、聚类方法或者神经网络方法。最为常用的做法是将颜色空间的各个分量（维度）均匀地进行划分。参见图5所示，是一个量化HSV直方图的示意图，例如图像被切分为2*2个block，每个blcok得到一个250个bin的直方图，然后将四个直方图串联在一起获得HSV直方图。

前后相邻两帧或多帧图像得到的HSV直方图，采用直方图的交来进行度量，分数越小，表示两帧的差异性越小，也就意味着场景变化的可能性越大。可以通过预设直方图的交的阈值，当前后帧HSV直方图的交小于阈值时，则可以认为是前后帧不同场景，进行待检索视频的场景分割。

步骤404：每个场景选取一帧图像作为待检索视频中的关键帧，关键帧是与该场景的其他图像帧差异性最小的一帧。

在将待检索视频的场景进行了分割后，可以通过计算每个场景的所有帧的单像素的灰度平均值，寻找与灰度平均值差值和最小的那一帧，将该帧数据保存下来，作为该场景的关键帧的方法在每个场景选取一帧图像作为待检索视频中的关键帧。

需要注意的是，本发明实施例提取待检索视频中的关键帧并不局限于本实施例所提供的方法，例如还可以采用其他的颜色模型，或其他的特征来提取关键帧。

本实施例实现了提取待检索视频中的关键帧的过程，类似的，提取标准视频中的关键帧的具体实现可以包括：对标准视频进行解码，对解码后的标准视频的每帧图像进行RGB-HSV颜色空间转换，利用相邻两帧或多帧图像的HSV直方图的差异性进行标准视频的场景分割，每个场景选取一帧图像作为标准视频中的关键帧。

参见图6所示，在本发明的一些实施例中，提取关键帧中的局部特征的具体实现过程可以包括：

步骤601：对关键帧中的极值点进行检测。

局部特征可以为旋转不变性特征sift特征，sift特征对旋转、尺度缩放、亮度变化保持不变性，对视角变化、仿射变换、噪声也保持一定程度的稳定性，即使少数的几个物体也可以产生大量sift特征向量。可以通过每帧图像的若干个局部特征来代表该关键帧。

具体的，可以对关键帧图像进行不同高斯参数的高斯平滑，利用双高斯差(Difference Of Gaussian，DOG)模型来检测角点，通过角点的检测可以确定极大值点以及极小值点，最终实现关键帧中的极值点的检测。

步骤602：精确定位极值点。

通过拟和三维二次函数以精确确定极值点的位置和尺度（达到亚像素精度），因为DOG算子会产生较强的边缘响应，因此可以同时去除低对比度的关键点和不稳定的边缘响应点，以增强匹配稳定性、提高抗噪声能力。

步骤603：计算极值点的主方向。

在以极值点为中心的邻域窗口内采样，并用直方图统计邻域像素的梯度方向。梯度直方图的范围是0～360度，其中每10度一个柱，总共36个柱。直方图的峰值则代表了该关键点处邻域梯度的主方向，即作为该关键点的方向。参见图7所示，是采用7个柱时使用梯度直方图计算极值点主方向的示例图。

步骤604：生成极值点的向量描述，作为关键帧中的局部特征。

每个极值点可以使用4×4共16个种子点来描述，每个种子点的方向量化为8个bin，则局部特征的总维度是4*4*8=128维，生成极值点的向量描述，作为关键帧中的局部特征。

需要注意的是，本发明实施例提取关键帧中的局部特征并不局限于提取sift特征，也可以提取其他类型的局部特征，作为图像的局部特征进行使用。

本实施例实现了提取关键帧中的局部特征的过程，类似的，提取标准视频中的关键帧中的局部特征作为标准特征的实现过程同样可以包括：对关键帧中的极值点进行检测，精确定位极值点，计算极值点的主方向，生成极值点的向量描述，作为关键帧中的局部特征。

参见图8所示，在本发明的一些实施例中，将广义关键帧在倒排文档中进行倒排索引的具体实现可以包括：

步骤801：将广义关键帧的全部局部特征在倒排文档中进行遍历，根据局部特征与叶子节点的特征均值向量的相似性度量，判断局部特征是否与K-means树模型的叶子节点匹配。

该过程可以理解为量化的过程，量化是对高维特征采用低维特征来进行描述的一种方式，类似于降维。在上述实施例中，生成极值点的向量描述，作为关键帧中的局部特征。继续对局部特征量化可以获得局部特征的所匹配的叶子节点的量化索引。

步骤802：如果局部特征与K-means树模型的叶子节点匹配，则记录该叶子节点对应的标准视频，当记录的标准视频次数达到预设阈值时，则该标准视频与待检索视频对应，获得第一检索结果。

即每个局部特征在倒排文档中进行遍历，寻找该局部特征所匹配的叶子节点，当找到所匹配的叶子节点后，则该叶子节点上添加的标准特征所对应的标准视频都记录一次，即投票一次，最终当广义关键帧中的全部局部特征均在倒排文档中遍历后，会有若干个标准视频获得了投票，当记录的标准视频次数达到预设阈值时，则可以认为这些标准视频与待检索视频对应，获得第一检索结果。

类似的，局部特征通过在K-means树模型中寻找匹配的叶子节点，可以加快特征分类的速度，同时，利用广义关键帧中的局部特征在倒排文档中遍历，可以通过投票获得待检索视频对应的若干个标准视频的列表，一方面实现了基于内容的视频检索，另一方面合成广义关键帧可以将视频检索简化为类似对图像进行检索，大大加快了视频检索的速度。

在本发明的一些实施例中，本发明实施例视频检索方法进一步还可以包括：

第一检索结果的获得是将待检索视频中的关键帧合并生成了广义关键帧，相当于转化为没有时序的图像进行的快速检索，为了获得更为准确的结果，在获得了第一检索结果后，将与待检索视频相对应的标准视频缩小到一定范围后，再通过时序筛选验证，可以去除干扰视频，获得更为准确的检索结果。

参见图9所示，本发明视频检索方法实施例六可以包括以下步骤：

步骤901：预先建立倒排文档。

步骤902：提取待检索视频中的关键帧并提取关键帧中的局部特征。

步骤903：将提取到的局部特征进行合并，生成包含全部局部特征的广义关键帧。

步骤904：将广义关键帧的全部局部特征在倒排文档中进行遍历，根据局部特征与叶子节点的特征均值向量的相似性度量，判断局部特征是否与K-means树模型的叶子节点匹配，如果是，记录该叶子节点对应的标准视频，当记录的标准视频次数达到预设阈值时，则该标准视频与待检索视频对应，获得第一检索结果。

步骤905：将第一检索结果索引获得的标准视频进行视频时序筛选验证，获得第二检索结果。

由此可见，本发明实施例通过待检索视频中的关键帧进行视频索引，实现了基于内容的视频搜索，通过将一个待检索视频的全部关键帧中的全部局部特征合并为一帧广义关键帧，即一个待检索视频通过对一个广义关键帧的检索就可以完成视频搜索，实现了在海量标准视频中对待检索视频的快速检索。另外，通过视频时序筛选可以去除干扰视频，获得更为准确的检索结果。即利用广义关键帧快速定位待检索视频对应的标准视频后，通过时序筛选在获得的标准视频中进一步获得待检索视频对应的更为准确的标准视频，实现高速、准确地实现基于内容的视频搜索。

相应的，本发明实施例还提供一种视频检索装置实施例，参见图10所示，该装置实施例可以包括：

建立单元1001，用于预先建立倒排文档，倒排文档中包括标准特征分类与标准特征分类中对应的标准视频；

第一提取单元1002，用于提取待检索视频中的关键帧；

第二提取单元1003，用于提取关键帧中的局部特征；

生成单元1004，用于将提取到的局部特征进行合并，生成包含全部局部特征的广义关键帧；

索引单元1005，用于将广义关键帧在倒排文档中进行倒排索引，获得第一检索结果，第一检索结果包括待检索视频与索引获得的对应的标准视频列表。

具体的，在本发明的一些实施例中，参见图11所示，建立单元1001可以包括：

提取子单元1101，用于提取标准视频中的关键帧并提取关键帧中的局部特征作为标准特征；

训练子单元1102，用于利用若干个标准特征训练K-means树模型，K-means树的叶子节点包括特征均值向量以及量化索引，叶子节点作为标准特征分类；

第一量化子单元1103，用于将全部所述标准特征在所述K-means树模型中进行遍历，根据标准特征与所述叶子节点的特征均值向量的相似性度量，判断所述标准特征是否与所述K-means树模型的叶子节点匹配；

添加子单元1104，用于如果所述标准特征与所述K-means树模型的叶子节点匹配，获得所述标准特征对应的所述叶子节点的量化索引，在该叶子节点上添加该标准特征所对应的标准视频的索引，从而建立倒排文档。

具体的，在本发明的一些实施例中，参见图12所示，第一提取单元1002可以包括：

解码子单元1201，用于对待检索视频进行解码；

转换子单元1202，用于对解码后的待检索视频的每帧图像进行 RGB-HSV颜色空间转换；

分割子单元1203，用于利用相邻两帧或多帧图像的HSV直方图的差异性进行待检索视频的场景分割；

选取子单元1204，用于每个场景选取一帧图像作为待检索视频中的关键帧，关键帧是与该场景的其他图像帧差异性最小的一帧。

具体的，在本发明的一些实施例中，参见图13所示，局部特征可以为尺度不变特征转换（sift特征），第二提取单元1003可以包括：

检测子单元1301，应用对关键帧中的极值点进行检测；

定位子单元1302，用于精确定位极值点；

计算子单元1303，用于计算极值点的主方向；

生成子单元1304，用于生成极值点的向量描述，作为关键帧中的局部特征。

具体的，在本发明的一些实施例中，参见图14所示，索引单元1005具体用于：

将广义关键帧的全部局部特征在倒排文档中进行遍历，根据局部特征与叶子节点的特征均值向量的相似性度量，判断局部特征是否与K-means树模型的叶子节点匹配，如果是，记录该叶子节点对应的标准视频，当记录的标准视频次数达到预设阈值时，则该标准视频与待检索视频对应，获得第一检索结果。

在本发明的一些实施例中，本发明实施例视频检索装置还可以包括：

相应的，本发明实施例还提供一种服务器，参见图14所示，可以包括：

处理器1401、存储器1402、输入装置1403和输出装置1404。浏览器服务器中的处理器1401的数量可以一个或多个，图14中以一个处理器为例。在本发明的一些实施例中，处理器1401、存储器1402、输入装置1403和输出装置1404可通过总线或其它方式连接，其中，图14中以通过总线连接为例。

存储器1402可用于存储软件程序以及模块，处理器1401通过运行存储在存储器1402的软件程序以及模块，从而执行浏览器服务器的各种功能应用以及数据处理。存储器1402可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序等。此外，存储器1402可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。输入装置1403可用于接收输入的数字或字符信息，以及产生与浏览器服务器的用户设置以及功能控制有关的键信号输入。

具体在本实施例中，处理器1401会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器1402中，并由处理器1401来运行存储在存储器1402中的应用程序，从而实现各种功能：

相应的，所述预先建立倒排文档包括：

相应的，所述提取待检索视频中的关键帧，包括：

对待检索视频进行解码；

对解码后的待检索视频的每帧图像进行RGB-HSV颜色空间转换；

对所述关键帧中的极值点进行检测；

精确定位所述极值点；

计算所述极值点的主方向；

相应的，还包括：

由此可见，本发明实施例通过待检索视频中的关键帧进行视频索引，实现了基于内容的视频搜索，通过将一个待检索视频的全部关键帧中的全部局部特征合并为一帧广义关键帧，即一个待检索视频通过对一个广义关键帧的检索就可以完成视频搜索，实现了在海量标准视频中对待检索视频的快速检索。另外，通过视频时序筛选可以去除干扰视频，获得更为准确的检索结果。

需要说明的是，本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统或装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器（RAM）、内存、只读存储器（ROM）、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种视频检索方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述预先建立倒排文档包括：

3.根据权利要求1所述的方法，其特征在于，所述提取待检索视频中的关键帧，包括：

对待检索视频进行解码；

对解码后的待检索视频的每帧图像进行RGB-HSV颜色空间转换；

4.根据权利要求1所述的方法，其特征在于，所述局部特征为旋转不变性特征，所述提取所述关键帧中的局部特征，包括：

对所述关键帧中的极值点进行检测；

精确定位所述极值点；

计算所述极值点的主方向；

5.根据权利要求2所述的方法，其特征在于，所述将所述广义关键帧在所述倒排文档中进行倒排索引，包括：

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

7.一种视频检索装置，其特征在于，所述装置包括：

第一提取单元，用于提取待检索视频中的关键帧；

第二提取单元，用于提取所述关键帧中的局部特征；

8.根据权利要求7所述的装置，其特征在于，所述建立单元包括：

9.根据权利要求7所述的装置，其特征在于，所述第一提取单元包括：

解码子单元，用于对待检索视频进行解码；

10.根据权利要求7所述的装置，其特征在于，所述局部特征为旋转不变性特征，所述第二提取单元包括：

检测子单元，应用对所述关键帧中的极值点进行检测；

定位子单元，用于精确定位所述极值点；

计算子单元，用于计算所述极值点的主方向；

11.根据权利要求8所述的装置，其特征在于，所述索引单元具体用于：

12.根据权利要求7所述的装置，其特征在于，所述装置还包括：