CN107025275A

CN107025275A - 视频搜索方法及装置

Info

Publication number: CN107025275A
Application number: CN201710169694.5A
Authority: CN
Inventors: 杨文强
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2017-03-21
Filing date: 2017-03-21
Publication date: 2017-08-08
Anticipated expiration: 2037-03-21
Also published as: CN107025275B

Abstract

本公开揭示了一种视频搜索方法及装置，属于计算机技术领域。所述方法包括：获取搜索关键字，所述搜索关键字中标示有场景描述字段，根据所述搜索关键字中的场景描述字段在预置的场景图像库中匹配得到场景图像，根据所述场景图像与视频之间的视频场景匹配度，为所述搜索关键字获得与所述场景图像相匹配的目标视频。上述视频搜索方法及装置能够提高视频搜索的效率。

Description

视频搜索方法及装置

技术领域

本公开涉及计算机应用技术领域，特别涉及一种视频搜索方法及装置。

背景技术

随着互联网技术的高速发展及网络带宽的提升，采用计算机设备进行视频的播放越来越广泛。然而，由于视频的数量成几何增长，在网络中搜索符合需求的视频将越来越困难，因而，如何快速地搜索到符合需求的视频成为一个亟待解决的问题。

目前，视频搜索主要是根据搜索文字与视频的标题、导演、演员等相关文字信息进行文本匹配，进而搜索相匹配的视频。但是，很多视频缺乏相应的文字信息，导致无法搜索到相匹配的视频；另一方面，文字信息中的信息量较少，或文字信息与视频不匹配，使搜索到的视频并不准确，且增加了视频的搜索成本。也就是说，目前的视频搜索技术无法快速查找到相匹配的目标视频，导致视频搜索的效率较低。

发明内容

为了解决相关技术中视频搜索的效率较低的技术问题，本公开提供了一种视频搜索方法及装置。

一种视频搜索方法，包括：

获取搜索关键字，所述搜索关键字中标示有场景描述字段；

根据所述搜索关键字中的场景描述字段在预置的场景图像库中匹配得到场景图像；

根据所述场景图像与视频之间的视频场景匹配度，为所述搜索关键字获得与所述场景图像相匹配的目标视频。

一种视频搜索装置，包括：

关键字获取模块，用于获取搜索关键字，所述搜索关键字中标示有场景描述字段；

字段场景匹配模块，用于根据所述搜索关键字中的场景描述字段在预置的场景图像库中匹配得到场景图像；

目标视频获取模块，用于根据所述场景图像与视频之间的视频场景匹配度，为所述搜索关键字获得与所述场景图像相匹配的目标视频。

本公开的实施例提供的技术方案可以包括以下有益效果：

在进行视频搜索时，获取搜索关键字，搜索关键字中标示有场景描述字段，根据搜索关键字中的场景描述字段在预置的场景图像库中匹配得到场景图像，进而根据场景图像与视频之间的视频场景匹配度，为搜索关键字获得与场景图像相匹配的目标视频。由于在获取搜索关键字匹配得到场景图像后，就能根据场景图像与视频之间的视频场景匹配度就能迅速查找到与场景图像相匹配的目标视频，并且搜索到的目标视频与搜索关键字相匹配，从而大大提高了视频搜索的效率。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并于说明书一起用于解释本发明的原理。

图1是根据本公开所涉及的一个实施环境的示意图；

图2是根据一示例性实施例示出的一种视频搜索方法流程图；

图3是图2对应实施例示出的视频搜索方法中步骤S130的一种具体实现流程图；

图4是根据图2对应实施例示出的另一种视频搜索方法流程图；

图5是图2对应实施例示出的视频搜索方法中步骤S150的一种具体实现流程图；

图6是根据一示例性实施例示出的一种视频搜索的具体应用场景示意图；

图7是根据一示例性实施例示出的一种视频搜索装置的框图；

图8是图7对应实施例示出的字段场景匹配模块130的框图；

图9是图7对应实施例示出的目标视频获取模块150的框图；

图10是根据一示例性实施例示出的一种实施环境中终端的结构示意图。

具体实施方式

这里将详细地对示例性实施例执行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

图1是根据本公开所涉及的一个实施环境的示意图。该实施环境包括：终端100以及与终端100进行相互之间数据传输的服务器200。

终端100和服务器200之间的关联方式，包括但不限于以WiFi等无线网络或者有线宽带实现的二者之间往来的数据关联方式，具体关联方式不受本实施例的限制。

终端100在获取搜索关键字后，根据搜索关键字中的场景描述字段在预置的场景图像库中匹配得到场景图像，进而根据存储于服务器200中的场景图像与视频之间的视频场景匹配度，为搜索关键字获得与场景图像相匹配的目标视频。

终端100可以是手机、电脑等计算机设备，具体实现方式不受本实施例的限制。

图2是根据一示例性实施例示出的一种视频搜索方法流程图。如图2所示，该视频搜索方法可以包括以下步骤。

在步骤S110中，获取搜索关键字。

搜索关键字是用于搜索视频的文字信息。例如视频标题、导演、演员等文字信息。

搜索关键字可以是通过计算机设备的输入装置输入的文字信息，当然，还可以通过计算机设备的其他输入方式获取搜索关键字。计算机设备获取到搜索关键字后，对搜索关键字进行分解，提取出与场景相关的场景描述字段。

在步骤S130中，根据搜索关键字中的场景描述字段在预置的场景图像库中匹配得到场景图像。

场景图像库是预先准备的场景图像集合。

场景图像库中包含有描绘各种场景的图像，例如，描绘恐龙、巨人、僵尸等场景的图像。

根据搜索关键字中的场景描述字段实现在预置的场景图像库中匹配得到场景图像，可以是将每个场景图像对应的文字标签等文本信息与搜索关键字中的场景描述字段进行匹配运算，获取相匹配的文字标签等文本信息，进而得到对应的场景图像；也可以是根据搜索关键字中的场景描述字段，获取相应的场景，进而与场景图像库中各场景图像进行图像匹配计算，获取相匹配的场景图像；还可以通过其他的方式得到与搜索关键字中的场景描述字段相匹配的场景图像。

在步骤S150中，根据场景图像与视频之间的视频场景匹配度，为搜索关键字获得与场景图像相匹配的目标视频。

视频场景匹配度是场景图像与视频之间匹配程度的数据化衡量。

需要说明的是，场景图像与视频之间的视频场景匹配度预先存储于计算机设备或服务器中。

场景图像与视频之间的视频场景匹配度可以是预先设置好的，也可以是通过计算视频中图像与场景图像的匹配程度而得到的，还可以是通过其他方式得到的，在此不做限定。

通过场景图像与视频之间的视频场景匹配度，能够迅速查找到与场景图像相匹配的视频，即目标视频。而场景图像是与搜索关键字匹配得到的，因而目标视频也是与搜索关键字相匹配的。

通过如上所述的方法，在获取搜索关键字后，根据搜索关键字的场景描述字段在预置的场景图像库中匹配得到场景图像，进而根据场景图像与视频之间的视频场景匹配度迅速查找到与场景图像相匹配的目标视频，使搜索到的目标视频与搜索关键字相匹配，从而通过获取搜索关键字就能迅速搜索到相匹配的目标视频，大大提高了视频搜索的效率。

图3是根据一示例性实施例示出的对图2示出的视频搜索方法中步骤S130的细节描述。该步骤S130可以包括以下步骤。

在步骤S131中，将搜索关键字中的场景描述字段与场景图像库中各场景图像的文字标签进行文本匹配，得到与搜索关键字中场景描述字段相匹配的文字标签。

文字标签是对场景图像的标记。每个场景图像可以存在一个或多个文字标签。

场景图像的文字标签可以是人工设置的，也可以是通过对场景图像进行图像识别后进行标注的，还可以是通过其他的方式对场景图像进行标记。

对搜索关键字中的场景描述字段与场景图像库中各场景图像的文字标签进行文本匹配，可以通过KMP(克努特-莫里斯-普拉特操作)文本算法，对搜索关键字中场景描述字段和文字标签进行字符串匹配计算，也可以通过其他的文本算法进行文本匹配，在此不作限定。

通过计算搜索关键字中场景描述字段与文字标签的文本匹配度，并根据文本匹配度获取与搜索关键字中场景描述字段相匹配的文字标签。例如，根据文本匹配度选取预设数量的文本标签；又例如，根据文本匹配度选取匹配度超过预设匹配度阈值的文字标签。

在步骤S133中，通过与搜索关键字中场景描述字段相匹配的文字标签获得场景图像。

如前所述的，文字标签是对场景图像的标记，且与场景图像相对应。因此，根据文字标签，获取与其相对应的场景图像。

例如，场景图像“恐龙”、“巨人”、“僵尸”对应的文字标签分别为T1、T2、T3，而与搜索关键字中的场景描述字段A相匹配的文字标签为T2，因而获得的场景图像为“巨人”。

通过如上所述的方法，在获取搜索关键字后，将搜索关键字的场景描述字段与场景图像的文字标签进行匹配，获取相匹配的文字标签对应的场景图像，进而根据场景图像与视频之间的视频场景匹配度迅速查找到与场景图像相匹配的目标视频，使搜索到的目标视频与搜索关键字相匹配，从而通过获取搜索关键字就能迅速搜索到相匹配的目标视频，大大提高了视频搜索的效率。

在一示例性实施例中，图2中对应实施例示出的步骤S130之前，该视频搜索方法还可以包括以下步骤。

在步骤S210中，针对每一视频，逐一进行视频中图像帧与场景图像库中各场景图像的匹配，得到视频与各场景图像之间的视频场景匹配度，并存储。

可以理解的是，视频包括多个连续的图像帧。

由于视频中的图像帧较多，若将视频中的所有图像帧均与场景图像进行匹配运算，将大大增加匹配运算的数据计算量，延长匹配运算的时间。

因此，通过在视频中提取一个或一部分图像帧，将这些图像帧与场景图像进行匹配运算，进而获取视频与场景图像之间的视频场景匹配度，从而减少匹配运算的数据计算量，减短匹配运算的时间。

利用如上所述的方法，在进行视频搜索之前，预先对视频的图像帧和场景图像库的场景图像进行匹配运算，获取视频与场景图像之间的视频场景匹配度，在视频搜索时，只需根据场景图像查找该场景图像与各视频之间的视频场景匹配度，大大减小了视频搜索时的搜索计算量，加快了视频搜索的速度，提高了视频搜索的效率。

可选的，图4是根据一示例性实施例示出的一种视频搜索方法流程图。如图4所示，步骤S210还可以包括以下步骤。

在步骤S211中，预先提取视频中的图像帧。

提取视频中的图像帧的实现方式有多种，可以是在视频中随机提取一个或多个图像帧；也可以是采用图像聚类算法在视频中提取图像帧；还可以是通过其它的方式在视频中提取图像帧，具体实现方式在此不作限定。

在一个具体的示例性实施例中，利用K-means算法(硬聚类算法)在视频中提取图像帧。K-means算法为一种聚类算法，采用距离作为相似性的评价指标，即认为两个对象的距离越近，其相似度越大。而聚类是由距离靠近的对象组成的，因此将获得紧凑且独立的聚类作为最终目标。K-means算法接受输入量K，然后将视频的图像帧划分为K个聚类以便使得所获得的聚类满足：同一聚类中的图像帧相似度较高；而不同聚类中的图像帧相似度较小。聚类相似度是利用各聚类中图像帧的均值所获得一个“中心对象”来进行计算的。利用K-means算法(硬聚类算法)在视频中提取图像帧的具体处理流程如下：

(1)从视频的图像帧中任意选择K个对象作为初始聚类中心；

(2)根据每个聚类对象的均值(中心对象)，计算每个对象与这些中心对象的距离，并根据最小距离重新对相应对象进行划分；

(3)重新计算每个有变化的聚类的均值(中心对象)；

(4)循环(2)到(3)直到每个聚类不再发生变化为止。

在步骤S213中，针对每一视频，将图像帧与场景图像库中的各场景图像分别进行匹配运算，得到视频与场景图像库中各场景图像之间的视频场景匹配度。

将图像帧与场景图像库中的场景图像进行匹配运算，即图像之间的匹配运算。

在图像帧与场景图像库中的场景图像之间进行匹配运算，可以采用SIFT(ScaleInvariant Feature Transform，尺度不变特征变换)算法，也可以采用GiST(GeneralizedSearch Trees，通用搜索树)算法，还可以采用其他的方式实现图像帧与场景图像库中的场景图像之间的匹配运算，在此不作限定。

在步骤S215中，存储视频与场景图像之间的视频场景匹配度。

将视频与场景图像之间的视频场景匹配度进行存储，可以是将视频的视频播放数据与场景图像以视频场景匹配度进行关联存储，也可以是将视频的视频标识与场景图像以视频场景匹配度进行关联存储，还可以通过其他形式对视频与场景图像之间的视频场景匹配度进行存储。

在一个具体的示例性实施例中，将视频的视频标识与场景图像以视频场景匹配度进行关联存储。视频搜索时，先根据场景图像搜索对应的视频标识，进而查找到相应的视频。由于视频标识占用较小的数据存储空间，因此将大大减小所占用的数据存储空间。

利用如上所述的方法，在进行视频搜索之前，预先对视频的图像帧和场景图像库的场景图像进行匹配运算，获取视频与场景图像之间的视频场景匹配度，在视频搜索时，只需根据场景图像查找该场景图像与视频之间的视频场景匹配度，大大减小了视频搜索时的搜索计算量，加快了视频搜索的速度，提高了视频搜索的效率。

图5是根据一示例性实施例示出的对步骤S150的细节描述。该步骤S150可以包括以下步骤。

在步骤S151中，在预先存储的场景图像与各视频之间的视频场景匹配度中，按照视频场景匹配度的高低顺序选取视频场景匹配度。

如前所述的，在视频搜索前，视频与场景图像以视频场景匹配度进行关联存储。因而根据场景图像，查找该场景图像与各视频之间的视频场景匹配度。

按照视频场景匹配度的高低顺序，在场景图像与各视频之间的视频场景匹配度中选取视频场景匹配度时，可以根据视频场景匹配度的高低顺序选取预设数量的视频场景匹配度；也可以预先设置匹配度阈值，进而选取数值超过该匹配度阈值的视频场景匹配度；也可以选取所有视频场景匹配度；还可以采用其他方式选取视频场景匹配度，在此不作限定。

在步骤S153中，由选取的视频场景匹配度获得场景图像匹配的目标视频。

可以理解的是，各视频与场景图像之间的视频场景匹配度存在一定的差异。也就是说，各视频与场景图像之间的匹配程度存在一定的差异。场景图像匹配度越大，说明该视频与场景图像之间的匹配程度就越高。

可以理解的是，目标视频的数量可以为一个或多个。

在一具体的示例性实施例中，目标视频的数量为多个，通过场景图像匹配度的高低顺序，对目标视频进行排序展示，使与场景图像匹配程度高的视频展示在前位。

通过如上所述的方法，在获取搜索关键字后，将搜索关键字的场景描述字段与场景图像的文字标签进行匹配，获取相匹配的文字标签对应的场景图像，进而获取场景图像与视频之间视频场景匹配度，并根据视频场景匹配度的高低顺序获取与场景图像相匹配的目标视频，使搜索到的目标视频与搜索关键字相匹配，从而通过获取搜索关键字就能迅速搜索到相匹配的视频，大大提高了视频搜索的效率。

根据一示例性实施例示出的对图4所示出的视频搜索方法中步骤S153的细节描述，该步骤S153可以包括以下步骤。

在步骤S1531中，根据选取的视频场景匹配度，以及视频场景匹配度对应的场景图像相对于搜索关键字中的场景描述字段的文字场景匹配度，从视频场景匹配度对应的视频中获得目标视频。

文字场景匹配度是搜索关键字中场景描述字段与场景图像之间的匹配程度。

可以理解的是，根据搜索关键字中的场景描述字段在预置的场景图像库中匹配得到场景图像，该场景图像并非与搜索关键字中的场景描述字段完全相同，即场景图像与搜索关键字中场景描述字段之间的文字场景匹配度并不是最大匹配值。

因此，有必要综合考量场景图像与视频之间的视频场景匹配度，以及场景图像与搜索关键字中场景描述字段之间的文字场景匹配度，进而在获取搜索关键字中场景描述字段与视频之间的匹配程度后，得到目标视频。

综合考量场景图像与视频之间的视频场景匹配度，以及场景图像与搜索关键字中场景描述字段之间的文字场景匹配度，获取搜索关键字中场景描述字段与视频之间的匹配程度，可以将视频场景匹配度与文字场景匹配度相加，进而获取搜索关键字中场景描述字段与各视频之间的匹配程度；也可以将视频场景匹配度与文字场景匹配度相乘，进而获取搜索关键字中场景描述字段与各视频之间的匹配程度；还可以通过其他的方式获取搜索关键字中场景描述字段与各视频之间的匹配程度。

例如，根据搜索关键字中场景描述字段X，在预置的场景图像库中匹配得到场景图像A、B，其中，场景描述字段X与场景图像A、B之间的文字场景匹配度分别为0.9、0.8。获取到场景图像A与视频V1、V2、V3、V4、V5之间的视频场景匹配度分别为0.6、0.9、0.8、0.6、0.7，场景图像B与视频V1、V2、V3、V4、V5之间的视频场景匹配度分别为0.2、0.9、0.1、0.6、0.7。当场景描述字段与各视频之间的匹配值为视频场景匹配度与文字场景匹配度相加，目标视频为与场景描述字段之间的匹配值大于1的视频时，由于视频V1、V2、V3、V4、V5与场景描述字段X之间的匹配值分别为0.8、1.8、0.9、1.2、1.4，因此目标视频为视频V2、V5、V4。

利用如上所述的方法，在视频搜索时，通过综合考量场景图像与视频之间的视频场景匹配度，以及场景图像与搜索关键字中场景描述字段之间的文字场景匹配度，进而获取得到目标视频，提高了视频搜索的准确性。

下面结合一个具体的应用场景来详细阐述如上的视频搜索方法。视频搜索方法运行于一计算机设备中。具体的，如图6所示。

用户输入搜索关键字“巨人”后，将“巨人”与场景图像库中各场景图像的文字标签进行文本匹配，得到与搜索关键字“巨人”相匹配的文字标签“巨人”，根据文字标签“巨人”对应的场景图像B，查找各视频与场景图像B之间的匹配度：视频“侏罗纪世界”与场景图像B的匹配度为0.1，视频“侏罗纪世界”与场景图像B的匹配度为0.1，视频“复仇者联盟”与场景图像B的匹配度为0.9，视频“僵尸先生”与场景图像B的匹配度为0.3。因而根据匹配度得到与场景图像B关联存储的视频“侏罗纪世界”、“复仇者联盟”、“僵尸先生”，进而根据匹配度的大小顺序对视频进行排序展示，排序顺序为视频“复仇者联盟”、“僵尸先生”、“侏罗纪世界”。

下述为本公开装置实施例，可以用于执行本上述视频搜索方法实施例。对于本公开装置实施例中未披露的细节，请参照本公开视频搜索方法实施例。

图7是根据一示例性实施例示出的一种视频搜索装置的框图，该装置包括但不限于：关键字获取模块110、字段场景匹配模块130及目标视频获取模块150。

关键字获取模块110，用于获取搜索关键字，搜索关键字中标示有场景描述字段；

字段场景匹配模块130，用于根据搜索关键字中的场景描述字段在预置的场景图像库中匹配得到场景图像；

目标视频获取模块150，用于根据场景图像与视频之间的视频场景匹配度，为搜索关键字获得与场景图像相匹配的目标视频。

上述装置中各个模块的功能和作用的实现过程具体详见上述视频搜索方法中对应步骤的实现过程，在此不再赘述。

可选的，如图8所示，图7中示出的字段场景匹配模块130包括但不限于：文本匹配子模块131和场景获取子模块133。

文本匹配子模块131，用于将搜索关键字中的场景描述字段与场景图像库中各场景图像的文字标签进行文本匹配，得到与搜索关键字中场景描述字段相匹配的文字标签；

场景获取子模块133，用于通过与搜索关键字中场景描述字段相匹配的文字标签获得场景图像。

可选的，图7中示出的视频搜索装置还包括但不限于：视频场景匹配模块。

视频场景匹配模块，用于针对每一视频，逐一进行视频中图像帧与场景图像库中各场景图像的匹配，得到视频与各场景图像之间的视频场景匹配度，并存储。

可选的，如图9所示，图7中示出的目标视频获取模块150包括但不限于：匹配度选取子模块151和目标视频获取子模块153。

匹配度选取子模块151，用于在预先存储的场景图像与各视频之间的视频场景匹配度中，按照视频场景匹配度的高低顺序选取视频场景匹配度；

目标视频获取子模块153，用于由选取的视频场景匹配度获得场景图像匹配的目标视频。

可选的，图9中示出的目标视频获取子模块153具体应用于根据选取的视频场景匹配度，以及视频场景匹配度对应的场景图像相对于搜索关键字中的场景描述字段的文字场景匹配度，从视频场景匹配度对应的视频中获得目标视频。

图10是根据一示例性实施例示出的一种终端100的框图。参考图10，终端100可以包括以下一个或者多个组件：处理组件101，存储器102，电源组件103，多媒体组件104，音频组件105，传感器组件107以及通信组件108。其中，上述组件并不全是必须的，终端100可以根据自身功能需求增加其他组件或减少某些组件，本实施例不作限定。

处理组件101通常控制终端100的整体操作，诸如与显示，电话呼叫，数据通信，相机操作以及记录操作相关联的操作等。处理组件101可以包括一个或多个处理器109来执行指令，以完成上述操作的全部或部分步骤。此外，处理组件101可以包括一个或多个模块，便于处理组件101和其他组件之间的交互。例如，处理组件101可以包括多媒体模块，以方便多媒体组件104和处理组件101之间的交互。

存储器102被配置为存储各种类型的数据以支持在终端100的操作。这些数据的示例包括用于在终端100上操作的任何应用程序或方法的指令。存储器102可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如SRAM(Static Random AccessMemory，静态随机存取存储器)，EEPROM(Electrically Erasable Programmable Read-Only Memory，电可擦除可编程只读存储器)，EPROM(Erasable Programmable Read OnlyMemory，可擦除可编程只读存储器)，PROM(Programmable Read-Only Memory，可编程只读存储器)，ROM(Read-Only Memory，只读存储器)，磁存储器，快闪存储器，磁盘或光盘。存储器102中还存储有一个或多个模块，该一个或多个模块被配置成由该一个或多个处理器109执行，以完成图2、图3、图4和图5任一所示方法中的全部或者部分步骤。

电源组件103为终端100的各种组件提供电力。电源组件103可以包括电源管理系统，一个或多个电源，及其他与为终端100生成、管理和分配电力相关联的组件。

多媒体组件104包括在所述终端100和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括LCD(Liquid Crystal Display，液晶显示器)和TP(TouchPanel，触摸面板)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。

音频组件105被配置为输出和/或输入音频信号。例如，音频组件105包括一个麦克风，当终端100处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器102或经由通信组件108发送。在一些实施例中，音频组件105还包括一个扬声器，用于输出音频信号。

传感器组件107包括一个或多个传感器，用于为终端100提供各个方面的状态评估。例如，传感器组件107可以检测到终端100的打开/关闭状态，组件的相对定位，传感器组件107还可以检测终端100或终端100一个组件的位置改变以及终端100的温度变化。在一些实施例中，该传感器组件107还可以包括磁传感器，压力传感器或温度传感器。

通信组件108被配置为便于终端100和其他设备之间有线或无线方式的通信。终端100可以接入基于通信标准的无线网络，如WiFi(WIreless-Fidelity，无线网络)，2G或3G，或它们的组合。在一个示例性实施例中，通信组件108经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件108还包括NFC(Near Field Communication，近场通信)模块，以促进短程通信。例如，在NFC模块可基于RFID(Radio Frequency Identification，射频识别)技术，IrDA(Infrared DataAssociation，红外数据协会)技术，UWB(Ultra-Wideband，超宽带)技术，BT(Bluetooth，蓝牙)技术和其他技术来实现。

在示例性实施例中，终端100可以被一个或多个ASIC(Application SpecificIntegrated Circuit，应用专用集成电路)、DSP(Digital Signal Processing，数字信号处理器)、PLD(Programmable Logic Device，可编程逻辑器件)、FPGA(Field－ProgrammableGate Array，现场可编程门阵列)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述视频搜索方法。

该实施例中的终端的处理器执行操作的具体方式已经在有关视频搜索方法的实施例中执行了详细描述，此处将不再做详细阐述说明。

在示例性实施例中，还提供了一种存储介质，该存储介质为计算机可读存储介质，例如可以为包括指令的临时性和非临时性计算机可读存储介质。该存储介质例如包括指令的存储器102，上述指令可由终端100的处理器109执行以完成上述视频搜索方法。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围执行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims

1.一种视频搜索方法，其特征在于，所述方法包括：

获取搜索关键字，所述搜索关键字中标示有场景描述字段；

2.根据权利要求1所述的方法，其特征在于，所述根据所述搜索关键字中的场景描述字段在预置的场景图像库中匹配得到场景图像，包括：

将所述搜索关键字中的场景描述字段与所述场景图像库中各场景图像的文字标签进行文本匹配，得到与所述搜索关键字中场景描述字段相匹配的文字标签；

通过与所述搜索关键字中场景描述字段相匹配的文字标签获得场景图像。

3.根据权利要求1所述的方法，其特征在于，所述根据所述场景图像与视频之间的视频场景匹配度，为所述搜索关键字获得与所述场景图像相匹配的目标视频步骤之前，所述方法还包括：

针对每一视频，逐一进行所述视频中图像帧与所述场景图像库中各场景图像的匹配，得到所述视频与各场景图像之间的视频场景匹配度，并存储。

4.根据权利要求1或3所述的方法，其特征在于，所述根据所述场景图像与视频之间的匹配度，为所述搜索关键字获得与所述场景图像相匹配的目标视频，包括：

在预先存储的所述场景图像与各视频之间的视频场景匹配度中，按照所述视频场景匹配度的高低顺序选取视频场景匹配度；

由选取的所述视频场景匹配度获得所述场景图像匹配的目标视频。

5.根据权利要求4所述的方法，其特征在于，所述由选取的所述视频场景匹配度获得所述场景图像匹配的目标视频，包括：

根据选取的所述视频场景匹配度，以及所述视频场景匹配度对应的场景图像相对于搜索关键字中的场景描述字段的文字场景匹配度，从所述视频场景匹配度对应的视频中获得目标视频。

6.一种视频搜索装置，其特征在于，所述装置包括：

7.根据权利要求6所述的装置，其特征在于，所述字段场景匹配模块包括：

文本匹配子模块，用于将所述搜索关键字中的场景描述字段与所述场景图像库中各场景图像的文字标签进行文本匹配，得到与所述搜索关键字中场景描述字段相匹配的文字标签；

场景获取子模块，用于通过与所述搜索关键字中场景描述字段相匹配的文字标签获得场景图像。

8.根据权利要求6所述的装置，其特征在于，所述装置还包括：

视频场景匹配模块，用于针对每一视频，逐一进行所述视频中图像帧与所述场景图像库中各场景图像的匹配，得到所述视频与各场景图像之间的视频场景匹配度，并存储。

9.根据权利要求6或8所述的装置，其特征在于，所述目标视频获取模块包括：

匹配度选取子模块，用于在预先存储的所述场景图像与各视频之间的视频场景匹配度中，按照所述视频场景匹配度的高低顺序选取视频场景匹配度；

目标视频获取子模块，用于由选取的所述视频场景匹配度获得所述场景图像匹配的目标视频。

10.根据权利要求9所述的装置，其特征在于，所述目标视频获取子模块具体应用于根据选取的所述视频场景匹配度，以及所述视频场景匹配度对应的场景图像相对于搜索关键字中的场景描述字段的文字场景匹配度，从所述视频场景匹配度对应的视频中获得目标视频。