CN103778204A

CN103778204A - 基于语音分析的视频搜索方法、设备及系统

Info

Publication number: CN103778204A
Application number: CN201410014577.8A
Authority: CN
Inventors: 崔代超
Original assignee: Beijing Qihoo Technology Co Ltd; Qizhi Software Beijing Co Ltd
Current assignee: Beijing Qihoo Technology Co Ltd; Qizhi Software Beijing Co Ltd
Priority date: 2014-01-13
Filing date: 2014-01-13
Publication date: 2014-05-07

Abstract

本发明提供了一种基于语音分析的视频搜索方法、设备及系统。该方法包括以下步骤：接收视频搜索请求；提取所述视频搜索请求中的视频关键字；利用所述视频关键字在视频资源库的语音文本索引集中进行搜索，获得匹配索引项；提取出与所述匹配索引项对应的目标视频资源的信息；以及根据所述目标视频资源的信息绘制搜索结果；其中，所述语音文本索引集中的索引项是基于对所述视频资源库中视频资源的伴音数据进行语音识别所获得的文本数据构建索引而形成的。本发明扩展了搜索引擎的视频搜索能力，使得用户能够搜索到视频包含的深度信息，并且允许对目标视频资源中所需的内容片断精确定位。

Description

基于语音分析的视频搜索方法、设备及系统

技术领域

本发明涉及搜索引擎技术，特别是涉及一种基于语音分析的视频搜索方法、一种基于语音分析的视频搜索客户端、一种服务器以及一种视频搜索系统。

背景技术

搜索引擎是一种在网络上应用的软件系统，其以一定的策略在网络上搜集和发现信息，并在对信息进行处理和组织后，为用户提供互联网上的信息搜索服务。

随着互联网的发展，互联网上的视频总量在以爆炸式的速度增长。搜索引擎无疑是帮助人们快速找到所需视频资源的一种重要方式。然而，现有搜索引擎在互联网上对视频的搜索还只停留在最简单的层面，即：只是对视频的文本标题和人为添加的文本备注信息进行索引，用户只能根据视频文本标题和文本备注信息进行查询，以找到这些信息与查询词相同或相似的视频资源。迄今，还没有一种搜索技术能够针对视频中包含的巨量信息进行解析和索引，让用户能够深度地搜索到视频内容中的各种信息。

在现有技术中，用户不但不能检索到视频内容中的信息，而且也不可能对检索到的视频资源中所需的内容片断进行精确定位。

发明内容

鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的视频搜索方法、设备及系统。

基于本发明的一个方面，本发明实施例提供了一种基于语音分析的视频搜索方法，包括以下步骤：

接收视频搜索请求；

提取所述视频搜索请求中的视频关键字；

利用所述视频关键字在视频资源库的语音文本索引集中进行搜索，获得匹配索引项；

提取出与所述匹配索引项对应的目标视频资源的信息；以及

根据所述目标视频资源的信息绘制搜索结果；

其中，所述语音文本索引集中的索引项是基于对所述视频资源库中视频资源的伴音数据进行语音识别所获得的文本数据构建索引而形成的。

可选地，在所述视频搜索方法中，形成所述语音文本索引集中的索引项包括：

获取待处理的视频资源；

从所述待处理的视频资源中分离出伴音数据；

对分离出的所述伴音数据进行语音识别，解析为文本数据；以及

对解析出的所述文本数据构建索引，形成与所述待处理的视频资源关联的索引项。

可选地，在所述视频搜索方法中，获取待处理的视频资源包括：存储所述待处理的视频资源的URL地址。

可选地，在所述视频搜索方法中，对分离出的所述伴音数据进行语音识别，解析为文本数据包括：对所述伴音数据进行语句分割，并将分割出的每条语句解析为一条文本数据并存储。

可选地，在所述视频搜索方法中，在存储每条所述文本数据时，还存储该条文本数据在所述伴音数据中对应的语句相对于视频时间起始点所处的时间位置。

可选地，在所述视频搜索方法中，提取出的所述目标视频资源的信息包括所述目标视频资源的URL地址、所述匹配索引项对应的文本数据、以及所述匹配索引项对应的时间位置。

可选地，在所述视频搜索方法中，绘制所述搜索结果包括绘制所述目标视频资源在所述匹配索引项对应的时间位置处的视频截图。

可选地，在所述视频搜索方法中，绘制所述搜索结果还包括绘制从视频时间起始点处开始完整观看所述目标视频资源的链接，以及绘制从所述匹配索引项对应的时间位置处开始观看所述目标视频资源的链接。

基于本发明的另一个方面，本发明实施例还提供了一种基于语音分析的视频搜索客户端，包括：

搜索请求接收模块，配置为接收视频搜索请求；

关键字提取模块，配置为提取所述视频搜索请求中的视频关键字；

搜索模块，配置为利用所述视频关键字在视频资源库的语音文本索引集中进行搜索，获得匹配索引项；

信息提取模块，配置为提取出与所述匹配索引项对应的目标视频资源的信息；以及

绘制模块，配置为根据所述目标视频资源的信息绘制搜索结果；

可选地，所述信息提取模块提取出的所述目标视频资源的信息包括所述目标视频资源的URL地址、所述匹配索引项对应的文本数据、以及所述匹配索引项对应的时间位置。

可选地，所述绘制模块绘制所述搜索结果包括绘制所述目标视频资源在所述匹配索引项对应的时间位置处的视频截图。

可选地，所述绘制模块绘制所述搜索结果包括绘制从视频时间起始点处开始完整观看所述目标视频资源的链接，以及绘制从所述匹配索引项对应的时间位置处开始观看所述目标视频资源的链接。

基于本发明的另一个方面，本发明实施例还提供了一种服务器，包括：

视频资源获取模块，配置为获取待处理的视频资源；

伴音数据分离模块，配置为从所述待处理的视频资源中分离出伴音数据；

伴音数据解析模块，配置为对分离出的所述伴音数据进行语音识别，解析为文本数据；以及

索引构建模块，配置为对解析出的所述文本数据构建索引，形成与所述待处理的视频资源关联的索引项；

语音文本索引集，配置为存储所述索引构建模块形成的索引项。

可选地，所述视频资源获取模块还被配置为：存储所述待处理的视频资源的URL地址。

可选地，所述伴音数据解析模块还被配置为：对所述伴音数据进行语句分割，并将分割出的每条语句解析为一条文本数据并存储。

可选地，所述伴音数据解析模块还被配置为：在存储每条所述文本数据时，还存储该条文本数据在所述伴音数据中对应的语句相对于视频时间起始点所处的时间位置。

基于本发明的另一个方面，本发明实施例还提供了一种视频搜索系统，包括上述任一项所述的基于语音分析的视频搜索客户端，以及上述任一项所述的服务器。

本发明的视频搜索方法、设备及系统基于语音分析技术，对视频资源中的伴音数据进行语音识别，并对所获得的文本数据构建索引而形成的语音文本索引集，利用视频搜索请求中的视频关键字在语音文本索引集中进行搜索，获得匹配索引项，从而获得目标视频资源的有关信息，绘制相应的搜索结果。这种基于语音分析的视频搜索方法扩展了搜索引擎的视频搜索能力，使得用户能够搜索到视频包含的深度信息。

进一步地，在本发明实施例中，在对视频资源中分离出的伴音数据进行语句分割、解析和存储时，还存储了每条文本数据对应的语句相对于视频时间起始点所处的时间位置，使得本发明的视频搜索方法和设备绘制的搜索结果可对检索到的视频资源中所需的内容片断进行精确定位并提供对应时间位置的视频截图。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

根据下文结合附图对本发明具体实施例的详细描述，本领域技术人员将会更加明了本发明的上述以及其他目的、优点和特征。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1是根据本发明一个实施例的视频搜索方法的示意性流程图；

图2是根据本发明一个实施例的视频搜索方法形成语音文本索引集中索引项的示意性流程图；

图3是根据本发明一个实施例的视频搜索客户端的示意性模块图；

图4是根据本发明一个实施例的服务器的示意性模块图；

图5是利用本发明的视频搜索方法绘制的搜索结果的示意性图示；

图6是根据本发明一个实施例的视频搜索系统的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

为解决现有技术中的至少一个技术问题，本发明实施例提供了一种基于语音分析的视频搜索方法的处理流程图。图1是根据本发明一个实施例的视频搜索方法的示意性流程图。参见图1，本发明的这种视频搜索方法一般性地可包括：

步骤S102，接收视频搜索请求；

步骤S104，提取所述视频搜索请求中的视频关键字；

步骤S106，利用所述视频关键字在视频资源库的语音文本索引集中进行搜索，获得匹配索引项；

步骤S108，提取出与所述匹配索引项对应的目标视频资源的信息；以及

步骤S110，根据所述目标视频资源的信息绘制搜索结果。

其中，步骤S106在进行搜索时采用了语音文本索引集，该语音文本索引集中的索引项在本发明实施例中被特别地配置成是基于对视频资源库中视频资源的伴音数据进行语音识别所获得的文本数据构建索引而形成的。这样的语音文本索引集可预先存储在搜索引擎可访问的任意服务器上，也可由后文描述的方法在接收视频搜索请求前或后，在需要使用该语音文本索引集前生成，并不断累加存储，形成关联丰富视频资源的语音文本索引集。本发明的这种基于语音分析的视频搜索方法能够有效扩展搜索引擎的视频搜索能力，允许用户对视频中包含的深度内容信息进行搜索。

本发明实施例的视频搜索方法，对视频资源中的伴音数据进行语音识别，并对所获得的文本数据构建索引而形成的语音文本索引集，利用视频搜索请求中的视频关键字在语音文本索引集中进行搜索，获得匹配索引项，从而获得目标视频资源的有关信息，绘制相应的搜索结果。这种基于语音分析的视频搜索方法扩展了搜索引擎的视频搜索能力，使得用户能够搜索到视频包含的深度信息。

图2是根据本发明一个实施例的视频搜索方法形成语音文本索引集中索引项的示意性流程图。如该图所示，形成所述语音文本索引集中的索引项可包括如下步骤：

步骤S202，获取待处理的视频资源；

步骤S204，从所述待处理的视频资源中分离出伴音数据；

步骤S206，对分离出的所述伴音数据进行语音识别，解析为文本数据；以及

步骤S208，对解析出的所述文本数据构建索引，形成与所述待处理的视频资源关联的索引项。

利用图2所示的方法可以基于待处理的视频资源最终生成搜索时所需的由各条与相应视频资源关联的索引项组成的语音文本索引集。待处理的视频资源的格式可以是AVI、nAVI、DV-AVI、MPEG、DivX、MOV、ASF、WMV、RM和RMVB等任何适当的视频格式。

在此需要说明的是，从视频资源中分离伴音数据以及对其进行语音识别时均可采用相关领域中的现有技术来具体实施。为了不模糊或掩盖本发明的实质和精神，本文对此类本领域技术人员习知且容易实现的具体技术不作赘述。

在本发明视频搜索方法进一步的实施例中，获取待处理的视频资源包括存储待处理视频资源的URL（Uniform Resource Locator，统一资源定位符）地址。这使得在实施本发明实施例时，不必在服务器上的视频资源库中实际整个完整的视频资源，也可保证本发明的方法在需要时均能成功访问到相应的视频资源，不但大大节省了存储空间，且有效避免了可能的版权问题。

特别地，在图2所示的步骤S206中，对分离出的伴音数据进行语音识别，将其解析为文本数据优选包括对伴音数据进行语句分割，并将分割出的每条语句解析为一条文本数据并存储。考虑到语音识别技术本身的局限性，可能会存在一定数量的错误识别。因此，利用语音识别技术进行语音识别时，获取伴音中某一句话的匹配程度，根据匹配程度确定是否识别成功。若该匹配程度高于一个指定阈值时，则认为该语句识别成功，并可以将识别后的文本数据进行存储。同理，若该匹配程度不高于一个指定阈值，则认为该语句识别失败，并不会对其进行继续操作。除存储文本数据本身外，优选地，本发明实施例提供的方法在存储每条所述文本数据时，还存储了该条文本数据在所述伴音数据中对应的语句相对于视频时间起始点所处的时间位置等与该条文本数据相关的多种信息。这使得本发明提取出的与匹配索引项对应的目标视频资源的信息可包含这样的时间位置信息，例如可包括目标视频资源的URL地址、匹配索引项对应的文本数据、以及匹配索引项对应的时间位置。此处的时间位置信息仅仅是例举，除此之外，还可以提供文本数据的数量级、比特数、标题等等。

在本发明视频搜索方法进一步的实施例中，绘制搜索结果不仅可以包括绘制目标视频资源在匹配索引项对应的时间位置处的视频截图，而且可以包括绘制从视频时间起始点处开始完整观看所述目标视频资源的链接，以及绘制从所述匹配索引项对应的时间位置处开始观看所述目标视频资源的链接。所绘搜索结果的一个示例可参见图5。该图示出了以“小红的婚期”为视频搜索请求，根据本发明的视频搜索方法执行搜索并绘制一个搜索结果，其中的视频图片为相对于该目标视频资源的视频时间起始点为10分35秒的时间位置处的视频截图。该图中，“小红快要结婚了！”这一文本关联的超链接例如提供了访问目标视频资源所处网页的链接；“观看完整视频”这一文本关联的超链接例如提供了从视频时间起始点处开始完整观看目标视频资源的链接；而“定位到10分35秒”这一文本关联的超链接例如提供了从匹配索引项对应的时间位置处开始观看目标视频资源的链接。

基于同一发明构思，本发明实施例还提供了一种基于语音分析的视频搜索客户端，用于支持上述任一优选实施例的基于语音分析的视频搜索方法。如图3所示，根据本发明一个实施例的视频搜索客户端可包括：

搜索请求接收模块302，配置为接收视频搜索请求；

关键字提取模块304，配置为提取所述视频搜索请求中的视频关键字；

搜索模块306，配置为利用所述视频关键字在视频资源库的语音文本索引集301中进行搜索，获得匹配索引项；

信息提取模块308，配置为提取出与所述匹配索引项对应的目标视频资源的信息；以及

绘制模块310，配置为根据所述目标视频资源的信息绘制搜索结果。

与本发明视频搜索方法类似，本发明实施例提供的视频搜索客户端所搜索的语音文本索引集301中的索引项也是基于对视频资源库中视频资源的伴音数据进行语音识别所获得的文本数据构建索引而形成的。

在一个优选的实施例中，所述信息提取模块308提取出的所述目标视频资源的信息可以包括所述目标视频资源的URL地址、所述匹配索引项对应的文本数据、以及所述匹配索引项对应的时间位置。

在一个优选的实施例中，所述绘制模块310绘制所述搜索结果可以包括绘制所述目标视频资源在所述匹配索引项对应的时间位置处的视频截图。

在一个优选的实施例中，所述绘制模块绘制所述搜索结果可以包括绘制从视频时间起始点处开始完整观看所述目标视频资源的链接，以及绘制从所述匹配索引项对应的时间位置处开始观看所述目标视频资源的链接。

利用本发明的视频搜索设备绘制的搜索结果例如也可参见图5。

基于同一发明构思，本发明实施例还提供了一种服务器，用于支持上述任一项优选实施例提供的基于语音分析的视频搜索方法，并为图3的视频搜索客户端提供搜索资源。图4是根据本发明一个实施例的服务器的示意性模块图。如图4所示，该例中的服务器包括：

视频资源获取模块402，配置为获取待处理的视频资源；

伴音数据分离模块404，配置为从所述待处理的视频资源中分离出伴音数据；

伴音数据解析模块406，配置为对分离出的所述伴音数据进行语音识别，解析为文本数据；以及

索引构建模块408，配置为对解析出的所述文本数据构建索引，形成与所述待处理的视频资源关联的索引项；

语音文本索引集301，配置为存储所述索引构建模块408形成的索引项。

图4所示的服务器可自行生成语音文本索引集并不断累加存储，形成关联丰富视频资源的语音文本索引集，而不必通过其他设备或从第三方获取该语音文本索引集。

在本发明视频搜索设备的一个优选实施例中，视频资源获取模块402还被配置为存储待处理视频资源的URL地址。

伴音数据解析模块404也优选被配置为：对所述伴音数据进行语句分割，并将分割出的每条语句解析为一条文本数据并存储；而且，在存储每条所述文本数据时，也可存储该条文本数据在所述伴音数据中对应的语句相对于视频时间起始点所处的时间位置。

基于同一发明构思，本发明实施例还提供了一种视频搜索系统。图6示出了根据本发明一个实施例的视频搜索系统的结构示意图。由图6可知，该系统包括图3所示的基于语音分析的视频搜索客户端，以及图4所述的服务器。

综上可知，本发明实施例提供的基于语音分析的视频搜索的方法、设备及系统能够达到如下有益效果：

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书（包括伴随的权利要求、摘要和附图）中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书（包括伴随的权利要求、摘要和附图）中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器（DSP）来实现根据本发明实施例的视频搜索设备中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序（例如，计算机程序和计算机程序产品）。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

至此，本领域技术人员应认识到，虽然本文已详尽示出和描述了本发明的多个示例性实施例，但是，在不脱离本发明精神和范围的情况下，仍可根据本发明公开的内容直接确定或推导出符合本发明原理的许多其他变型或修改。因此，本发明的范围应被理解和认定为覆盖了所有这些其他变型或修改。

Claims

1.一种基于语音分析的视频搜索方法，包括以下步骤：

接收视频搜索请求；

提取所述视频搜索请求中的视频关键字；

提取出与所述匹配索引项对应的目标视频资源的信息；以及

根据所述目标视频资源的信息绘制搜索结果；

2.根据权利要求1所述的视频搜索方法，其中，

形成所述语音文本索引集中的索引项包括：

获取待处理的视频资源；

从所述待处理的视频资源中分离出伴音数据；

3.根据权利要求2所述的视频搜索方法，其中，

获取待处理的视频资源包括：

存储所述待处理的视频资源的URL地址。

4.根据权利要求2所述的视频搜索方法，其中，

对分离出的所述伴音数据进行语音识别，解析为文本数据包括：

对所述伴音数据进行语句分割，并将分割出的每条语句解析为一条文本数据并存储。

5.根据权利要求4所述的视频搜索方法，其中，

在存储每条所述文本数据时，还存储该条文本数据在所述伴音数据中对应的语句相对于视频时间起始点所处的时间位置。

6.根据权利要求1所述的视频搜索方法，其中，

提取出的所述目标视频资源的信息包括所述目标视频资源的URL地址、所述匹配索引项对应的文本数据、以及所述匹配索引项对应的时间位置。

7.根据权利要求1所述的视频搜索方法，其中，

绘制所述搜索结果包括绘制所述目标视频资源在所述匹配索引项对应的时间位置处的视频截图。

8.一种基于语音分析的视频搜索客户端，包括：

搜索请求接收模块，配置为接收视频搜索请求；

9.一种服务器，包括：

视频资源获取模块，配置为获取待处理的视频资源；

10.一种视频搜索系统，包括权利要求8所述的基于语音分析的视频搜索客户端，以及，权利要求9所述的服务器。