CN102650993A

CN102650993A - 音视频文件的索引建立和检索方法、装置及系统

Info

Publication number: CN102650993A
Application number: CN2011100468323A
Authority: CN
Inventors: 张鲁平; 孟犁; 杜希鹏; 董全武
Original assignee: Peking University; Peking University Founder Group Co Ltd; Beijing Founder Electronics Co Ltd
Current assignee: Peking University; Peking University Founder Group Co Ltd; Beijing Founder Electronics Co Ltd
Priority date: 2011-02-25
Filing date: 2011-02-25
Publication date: 2012-08-29

Abstract

本发明实施例公开一种音视频文件的索引建立和检索方法、装置及系统，涉及音视频技术领域，可以提高音视频文件的检索效率和成功率。包括：索引建立时，从音视频文件中提取关键信息，将所述关键信息、所述音视频文件及所述音视频文件的存储位置之间的关联关系保存为索引记录。检索时，从索引记录中查找出与所述待检索关键信息相匹配的目标音视频文件的标识；从与所述目标音视频文件的标识关联的存储地址中获取所述目标音视频文件，在所述目标音视频文件中定位所述待检索关键信息的所处位置。本发明实施例主要应用于广播电视内容管理技术领域，特别在海量音视频文件中进行检索时，可以提高检索的效率和成功率。

Description

音视频文件的索引建立和检索方法、装置及系统

技术领域

本发明涉及音视频技术领域，尤其涉及一种音视频文件的索引建立和检索方法、装置及系统。

背景技术

随着广播电视技术的迅猛发展，音视频节目的套数、播出时间及产量也大幅度地增加。与此同时，用户对广播电视的需求也变得多样化。面对音视频节目不断增加和多样化的现状，如何在海量的音视频节目中实现快速检索和定位所需要的音视频节目也逐渐成为广播电视技术领域中亟待解决的问题。

现有技术在实现音视频节目的检索和定位时，首先由工作人员通过素材标题查找到符合该素材标题的音视频文件，然后，对整个的音视频文件进行人工浏览，并由工作人员来确定是否有需要的音视频内容。因而，当采用现有技术在海量的音视频文件中检索所需要的音视频内容时，花费的工作量较大，耗时较长，从而使得音视频文件的检索效率和成功率也较低。

发明内容

本发明的实施例提供一种音视频文件的索引建立和检索方法、装置及系统，提高音视频文件的检索效率和成功率。

为达到上述目的，本发明的实施例采用如下技术方案：

一种音视频文件的索引建立方法，包括：

从音视频文件中提取关键信息并记录所述关键信息在所述音视频文件中的所处位置，所述关键信息包括关键帧图像、字幕文字、音频特征值、语音识别文字；

将所述关键信息、所述音视频文件的标识及所述音视频文件的存储位置之间的关联关系保存为索引记录。

一种音视频文件的检索方法，包括：

从待检索音视频文件中提取待检索关键信息，所述待检索关键信息包括关键帧图像、字幕文字、音频特征值、语音识别文字中的至少一种信息；

将所述待检索关键信息与索引记录中的关键信息进行匹配，并将与所述待检索关键信息完全匹配的关键信息作为目标关键信息；

获取与所述目标关键信息相关联的目标音视频文件的标识、目标音视频文件的存储地址，从所述目标音视频文件的存储地址中获取所述目标音视频文件的标识所表示的目标音视频文件，并在所述目标音视频文件中定位所述目标关键信息的所处位置。

本发明实施例还提供一种索引建立装置，包括：

提取单元，用于从音视频文件中提取关键信息并记录所述关键信息在所述音视频文件中的所处位置，所述关键信息包括关键帧图像、字幕文字、音频特征值、语音识别文字；

保存单元，用于将所述关键信息、所述音视频文件的标识及所述音视频文件的存储位置之间的关联关系保存为索引记录。

一种检索装置，包括：

提取单元，用于从待检索音视频文件中提取待检索关键信息，所述待检索关键信息包括关键帧图像、字幕文字、音频特征值、语音识别文字中的至少一种信息；

匹配单元，用于将所述待检索关键信息与索引记录中的关键信息进行匹配，并将与所述待检索关键信息完全匹配的关键信息作为目标关键信息；

获取单元，用于获取与所述目标关键信息相关联的目标音视频文件的标识、目标音视频文件的存储地址，从所述目标音视频文件的存储地址中获取所述目标音视频文件的标识所表示的目标音视频文件，并在所述目标音视频文件中定位所述目标关键信息的所处位置。

本发明实施例还提供一种音视频文件的检索系统，包括：

索引建立装置，用于从音视频文件中提取关键信息并记录所述关键信息在所述音视频文件中的所处位置，所述关键信息包括关键帧图像、字幕文字、音频特征值、语音识别文字；将所述关键信息、所述音视频文件的标识及所述音视频文件的存储位置之间的关联关系保存为索引记录；

检索装置，用于从待检索音视频文件中提取待检索关键信息，所述待检索关键信息包括关键帧图像、字幕文字、音频特征值、语音识别文字中的至少一种信息；将所述待检索关键信息与索引记录中的关键信息进行匹配，并将与所述待检索关键信息完全匹配的关键信息作为目标关键信息；获取与所述目标关键信息相关联的目标音视频文件的标识、目标音视频文件的存储地址，从所述目标音视频文件的存储地址中获取所述目标音视频文件的标识所表示的目标音视频文件，并在所述目标音视频文件中定位所述目标关键信息的所处位置；

索引数据库，用于保存所述索引记录。

由上述技术方案所描述的本发明实施例，在进行索引建立时，提取音视频文件本身具有的关键帧图像、字幕文字、音频特征值、语音识别文字等信息，并将所述提取出来的信息、音视频文件的标识和存储位置作为索引记录。在进行检索时，首先提取出待检索音视频文件的待检索关键信息，并利用上述待检索关键信息作为检索条件，即可从素材库中查找出与上述待检索音视频文件完全匹配的目标音视频文件，并根据索引建立时所记录的关键信息的所处位置，可以在查找出的目标音视频文件中快速定位待检索关键信息所处位置。与现有技术需要通过人工浏览来查找出目标音视频文件相比，本发明实施例在海量音视频文件中进行检索时，可以利用音视频文件本身的关键帧图像、字幕文字、音频特征值、语音识别文字等信息快速定位到对应目标音视频文件中的位置，可以节省大量的人力资源，提高音视频文件的检索效率和成功率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种音视频文件的索引建立方法的流程图；

图2为本发明实施例提供的一种音视频文件的检索方法的流程图；

图3为本发明实施例提供的一种音视频文件的索引建立装置的结构图；

图4为本发明实施例提供的一种音视频文件的检索装置的结构图；

图5为本发明实施例提供的一种音视频文件的检索系统的结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1：

本发明实施例提供一种音视频文件的索引建立方法，如图1所示，包括如下步骤：

101、从音视频文件中提取关键信息并记录所述关键信息在所述音视频文件中的所处位置，所述关键信息包括关键帧图像、字幕文字、音频特征值、语音识别文字。

具体应用时，素材库中的每一个音视频文件都需要进行关键信息的提取，可选的，本步骤可以通过如下方式实现：

在提取关键帧图像时，首先检测音视频文件中的转场镜头点，在检测出的转场镜头点处对音视频文件进行转场镜头切割，获取镜头分割点的图像。将每一个所述镜头分割点的图像作为一个关键帧图像，并记录所述关键帧图像在所述音视频文件中的播放位置。例如，采用开源Opencv实现关键帧图像的提取，提取出的关键帧图像用来表示一个片段的镜头内容。之后，记录所述关键帧图像在所述音视频文件中的播放位置，以便于在检索时可以实现所述关键帧图像在上述音视频文件中的快速定位。

在提取字幕文字时，将相邻的两个所述关键帧图像作为起点和终点，从位于起点和终点之间的每一个图像帧中提取字幕文字。例如，采用开源Opencv实现字幕文字的提取。然后，记录所述字幕文字在所述音视频文件中的播放位置，以便于在检索时可以快速定位所述字幕文字在上述音视频文件中的播放位置。

在提取音频特征值时，将相邻的两个所述关键帧图像作为起点和终点，从位于起点和终点之间的音视频片段中提取音频特征值，并将其序列化成一串数字，采用这一串数字来表示音频特征值。不同的音视频片段具有不同的音频特征值。提取所述音视频文件中每个音视频片段的音频特征值之后，记录所述音频特征值对应的音视频片段在所述音视频文件中的播放位置，以便于在检索时可以快速定位所述音频特征值对应的音视频片段在上述音视频文件中的播放位置。

在提取语音识别文字时，将相邻的两个所述关键帧图像作为起点和终点，从位于起点和终点之间的音视频片段进行语音识别，将进行语音识别得出的文字作为语音识别文字。例如，采用开源Opencv将音视频文件中的标准普通话识别并转化为文字。之后，记录所述语音识别文字对应的音视频片段在所述音视频文件中的播放位置，以便于在检索时可以快速定位所述语音识别文字对应的音视频片段在上述音视频文件中的播放位置。需要说明的是，本发明实施例将利用语音识别技术从音视频文件中的音频识别出的文字称之为语音识别文字。

102、将所述关键信息、所述音视频文件的标识及所述音视频文件的存储位置之间的关联关系保存为索引记录。以便于在检索时，可以根据上述音视频文件的关键帧图像、字幕文字、音频特征值、语音识别文字中的至少一种信息检索出对应的音视频文件。

相应地，本发明实施例还一种音视频文件的检索方法，如图2所示，包括如下步骤：

201、从待检索音视频文件中提取待检索关键信息，所述待检索关键信息包括关键帧图像、字幕文字、音频特征值、语音识别文字中的至少一种信息。

在进行音视频文件检索时，如果用户希望从素材库中检索出与某段音视频文件相匹配的素材时，可以将该段音视频文件作为检索条件，并从该段音视频文件中提取待检索关键信息，具体提取过程可以参照图1所示的音视频文件的索引建立方法中的步骤101。

202、将所述待检索关键信息与索引记录中的关键信息进行匹配，并将与所述待检索关键信息完全匹配的关键信息作为目标关键信息；

203、获取与所述目标关键信息相关联的目标音视频文件的标识、目标音视频文件的存储地址，从所述目标音视频文件的存储地址中获取所述目标音视频文件的标识所表示的目标音视频文件，并在所述目标音视频文件中定位所述目标关键信息的所处位置。

需要说明的是，由于在索引建立的过程中，执行102之后，在索引数据库的每一条索引记录中保存有关键信息、所述音视频文件的标识及所述音视频文件的存储位置之间的关联关系。因而，在步骤202从索引数据库查找出与所述待检索关键信息完全匹配的关键信息后，可以从所述目标音视频文件的存储位置获取目标音视频文件，并在目标音视频文件中快速定位到关键信息所在位置，例如在目标音视频文件中定位待检索音视频文件对应的字幕文字、音频所在的位置等。

实际应用时，如果采用上述图1所示的索引建立方法对音视频文件进行索引建立，那么在检索时，需要采用上述图2所示的检索方法来实现对所需要的音视频文件的检索。

由上述图1和图2所描述的本发明实施例中，在进行索引建立时，提取音视频文件本身具有的关键帧图像、字幕文字、音频特征值、语音识别文字等信息，并将所述提取出来的信息、音视频文件的标识和存储位置作为索引记录。在对音视频文件进行检索时，首先提取出待检索音视频文件的待检索关键信息，并利用上述待检索关键信息作为检索条件，即可从素材库中查找出与上述待检索音视频文件完全匹配的目标音视频文件，并根据索引建立时所记录的关键信息的所处位置，可以在查找出的目标音视频文件中快速定位待检索关键信息所处位置。与现有技术需要通过人工浏览来查找出目标音视频文件相比，本发明实施例可以节省大量的人力资源，提高音视频文件的检索效率和成功率。

进一步地，上述待检索音视频文件可以为视频文件，也可以为音频文件。

具体地，当上述待检索音视频文件为视频文件时，首先对该视频文件进行待检索关键信息的提取，可以利用图1所示的方法中步骤101从视频文件中提取出关键帧图像、字幕文字、音频特征值、语音识别文字。之后，将所述提取出的待检索关键信息与索引数据库中保存的索引记录中的关键信息进行匹配，如果存在完全匹配的目标关键信息，则结束匹配过程，并获取与所述目标关键信息相关联的目标音视频文件的标识、目标音视频文件的存储地址，从所述目标音视频文件的存储地址中获取所述目标音视频文件的标识所表示的目标音视频文件，并在所述目标音视频文件中定位所述目标关键信息的所处位置。如果不是完全匹配，但是存在与所述待检索关键信息在一定程度上相似的候选关键信息(比如通过设定相似度值来判断匹配的相似程度)，则获取所述候选关键信息在与所述候选关键信息关联的音视频文件中的所处位置；将所述待检索关键信息重新与所述获取到的位置上的关键帧相邻图像的关键信息进行匹配，比如，将所述待检索关键信息重新与所述获取到的位置上的关键帧的相邻的上一帧或者下一帧图像的关键信息进行匹配，如果完全匹配，则将与所述待检索关键信息完全匹配的关键信息作为目标关键信息，否则，结束匹配过程。

具体地，当上述待检索音视频文件为音频文件时，首先提取该音频文件对应的音频特征值，也即是将这段音频文件的序列提取出来形成一串由0和1组成的数字序列，并作为该音频文件的音频模板。利用所述音频模板和索引记录中的音频特征值进行匹配，如果完全匹配，则返回与所述音频模板完全匹配的音频特征值关联的音视频文件；如果不是完全匹配，亦即部分匹配，但是在一定程度的范围内相似(比如通过设定相似度值来判断匹配的相似程度)，则对该音频文件进行分拆，分拆成更小的一段段音频片段序列，依次使用所述每个音频片段各自的音频特征值与索引记录中的音频特征值进行匹配，如果完全匹配，则将与所述每个音频片段各自的音频特征值完全匹配的各个音频特征值作为目标关键信息，否则，结束匹配过程。需要说明的是，将上述音频文件分拆成更小的一段段音频片段序列的原则是以音频转折点进行分拆，也就是声音相邻高低音最明显的点。

需要说明的是，在检索时，用户也可以直接输入上述关键帧图像、字幕文字、语音特征值、语音识别文字中的一种信息或者几种信息的组合，此时，可以在索引数据库中对这些输入的信息进行直接匹配查询。

另外，可选的，在实际应用时，还可以将通过101提取出来的关键信息显示给用户，便于用户快速浏览到音视频文件的关键字图像、字幕文字、语音识别文字，音频特征值等信息。

实施例2：

本发明实施例提供一种音视频文件的索引建立装置，如图3所示，包括：提取单元11和保存单元12。

提取单元11用于从音视频文件中提取关键信息并记录所述关键信息在所述音视频文件中的所处位置，所述关键信息包括关键帧图像、字幕文字、音频特征值、语音识别文字；

保存单元12用于将所述关键信息、所述音视频文件的标识及所述音视频文件的存储位置之间的关联关系保存为索引记录。

进一步地，(图未示)所述索引建立装置中的提取单元11包括镜头分割模块，第一提取模块，第二提取模块，第三提取模块和第四提取模块。

其中，镜头分割模块，用于对所述音视频文件进行镜头分割，获取镜头分割点的图像；第一提取模块，用于将每一个所述镜头分割点的图像作为一个图像帧，并记录所述关键帧图像在所述音视频文件中的播放位置；第二提取模块，用于从位于相邻的两个所述关键帧图像之间的每一个关键帧图像中提取字幕文字，并记录所述字幕文字在所述音视频文件中的播放位置；第三提取模块，用于从位于相邻的两个所述关键帧图像之间的音视频片段中提取音频特征值，并记录所述音频特征值对应的音视频片段在所述音视频文件中的播放位置；第四提取模块，用于对位于相邻的两个所述关键帧图像之间的音视频片段进行语音识别，将进行语音识别得出的文字作为语音识别文字，并记录所述语音识别文字对应的音视频片段在所述音视频文件中的播放位置。

相应地，本发明实施例还提供一种音视频文件的检索装置，如图4所示，包括：提取单元21，匹配单元22和获取单元23。

其中，提取单元21用于从待检索音视频文件中提取待检索关键信息，所述待检索关键信息包括关键帧图像、字幕文字、音频特征值、语音识别文字中的至少一种信息；

匹配单元22用于将所述待检索关键信息与索引记录中的关键信息进行匹配，并将与所述待检索关键信息完全匹配的关键信息作为目标关键信息；

获取单元23用于获取与所述目标关键信息相关联的目标音视频文件的标识、目标音视频文件的存储地址，从所述目标音视频文件的存储地址中获取所述目标音视频文件的标识所表示的目标音视频文件，并在所述目标音视频文件中定位所述目标关键信息的所处位置。

由上述图3和图4所描述的本发明实施例中，在进行索引建立时，通过索引建立装置提取音视频文件本身具有的关键帧图像、字幕文字、音频特征值、语音识别文字等信息，将所述提取出来的关键信息和音视频文件的标识、存储地址保存为索引记录。在进行检索时，首先提取出待检索音视频文件的待检索关键信息，并利用上述待检索关键信息作为检索条件，即可从素材库中查找出与上述待检索音视频文件完全匹配的目标音视频文件，并根据索引建立时所记录的关键信息的所处位置，可以在查找出的目标音视频文件中快速定位待检索关键信息所处位置。与现有技术需要通过人工浏览来查找出目标音视频文件相比，本发明实施例可以利用音视频文件本身的关键帧图像、字幕文字、音频特征值、语音识别文字等信息快速定位到对应目标音视频文件中的位置，可以节省大量的人力资源，提高音视频文件的检索效率和成功率。

进一步地，当待检索音视频文件为视频文件时，所述检索装置中的提取单元21用于从视频文件中提取待检索关键信息，所述待检索关键信息包括关键帧图像、字幕文字、音频特征值、语音识别文字。

可选的，(图未示)所述检索装置还包括：第一处理单元和第一重匹配单元。

第一处理单元，用于若从索引记录中查找出与所述待检索关键信息部分匹配的候选关键信息时，获取所述候选关键信息在与所述候选关键信息关联的音视频文件中的所处位置；

第一重匹配单元，用于将所述待检索关键信息重新与所述获取到的位置上的关键帧相邻图像的关键信息进行匹配，如果完全匹配，则将与所述待检索关键信息完全匹配的关键信息作为目标关键信息，否则，结束匹配过程。

进一步地，当待检索音视频文件为音频文件时，所述检索装置中的提取单元21用于从音频文件中提取待检索关键信息，所述待检索关键信息包括音频特征值。

可选的，(图未示)所述检索装置还包括：第二处理单元和第二重匹配单元。

第二处理单元，用于若从索引记录中查找出与所述待检索关键信息部分匹配的音频特征值时，将所述音频文件进行分拆成预设个数的音频片段，依次提取所述每个音频片段各自的音频特征值；

第二重匹配单元，用于依次使用所述每个音频片段各自的音频特征值与索引记录中的音频特征值进行匹配，如果完全匹配，则将与所述每个音频片段各自的音频特征值完全匹配的各个音频特征值作为目标关键信息，否则，结束匹配过程。

相应地，本发明实施例还提供一种音视频文件的检索系统，如图5所示，包括：索引建立装置31、检索装置32和索引数据库33。

索引建立装置31用于从音视频文件中提取关键信息并记录所述关键信息在所述音视频文件中的所处位置，所述关键信息包括关键帧图像、字幕文字、音频特征值、语音识别文字；将所述关键信息、所述音视频文件的标识及所述音视频文件的存储位置之间的关联关系保存为索引记录。

检索装置32用于从待检索音视频文件中提取待检索关键信息，所述待检索关键信息包括关键帧图像、字幕文字、音频特征值、语音识别文字中的至少一种信息；将所述待检索关键信息与索引记录中的关键信息进行匹配，并将与所述待检索关键信息完全匹配的关键信息作为目标关键信息；获取与所述目标关键信息相关联的目标音视频文件的标识、目标音视频文件的存储地址，从所述目标音视频文件的存储地址中获取所述目标音视频文件的标识所表示的目标音视频文件，并在所述目标音视频文件中定位所述目标关键信息的所处位置。

索引数据库33用于保存索引记录。

利用本发明实施例提供的检索系统在进行检索时，利用上述待检索音视频文件的待检索关键信息作为检索条件，即可从素材库中查找出与上述待检索音视频文件完全匹配的目标音视频文件，并根据索引建立时所记录的关键信息的所处位置，可以在查找出的目标音视频文件中快速定位待检索关键信息所处位置。与现有技术需要通过人工浏览来查找出目标音视频文件相比，本发明实施例可以节省大量的人力资源，提高音视频文件的检索效率和成功率。

本发明实施例主要应用于广播电视内容管理技术领域，特别在海量音视频文件中对音视频文件进行检索时，可以提高检索的效率和成功率。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种音视频文件的索引建立方法，其特征在于，包括：

2.根据权利要求1所述的音视频文件的索引建立方法，其特征在于，所述从音视频文件中提取关键信息并记录所述关键信息在所述音视频文件中的所处位置包括：

对所述音视频文件进行镜头分割，获取镜头分割点的图像；

将每一个所述镜头分割点的图像作为一个关键帧图像，并记录所述关键帧图像在所述音视频文件中的播放位置；

从位于相邻的两个所述关键帧图像之间的每一个图像帧中提取字幕文字，并记录所述字幕文字在所述音视频文件中的播放位置；

从位于相邻的两个所述关键帧图像之间的音视频片段中提取音频特征值，并记录所述音频特征值对应的音视频片段在所述音视频文件中的播放位置；

对位于相邻的两个所述关键帧图像之间的音视频片段进行语音识别，将进行语音识别得出的文字作为语音识别文字，并记录所述语音识别文字对应的音视频片段在所述音视频文件中的播放位置。

3.一种音视频文件的检索方法，其特征在于，包括：

4.根据权利要求3所述的音视频文件的检索方法，其特征在于，当待检索音视频文件为视频文件时，从待检索音视频文件中提取待检索关键信息包括：

从视频文件中提取待检索关键信息，所述待检索关键信息包括关键帧图像、字幕文字、音频特征值、语音识别文字。

5.根据权利要求4所述的音视频文件的检索方法，其特征在于，还包括：

若从索引记录中查找出与所述待检索关键信息部分匹配的候选关键信息时，获取所述候选关键信息在与所述候选关键信息关联的音视频文件中的所处位置；

将所述待检索关键信息重新与所述获取到的位置上的关键帧相邻图像的关键信息进行匹配，如果完全匹配，则将与所述待检索关键信息完全匹配的关键信息作为目标关键信息，否则，结束匹配过程。

6.根据权利要求3所述的音视频文件的检索方法，其特征在于，当待检索音视频文件为音频文件时，从待检索音视频文件中提取待检索关键信息包括：

从音频文件中提取待检索关键信息，所述待检索关键信息包括音频特征值。

7.根据权利要求6所述的音视频文件的检索方法，其特征在于，还包括：

若从索引记录中查找出与所述待检索关键信息部分匹配的音频特征值时，将所述音频文件进行分拆成预设个数的音频片段，依次提取所述每个音频片段各自的音频特征值；

依次使用所述每个音频片段各自的音频特征值与索引记录中的音频特征值进行匹配，如果完全匹配，则将与所述每个音频片段各自的音频特征值完全匹配的各个音频特征值作为目标关键信息，否则，结束匹配过程。

8.一种索引建立装置，其特征在于，包括：

9.根据权利要求8所述的索引建立装置，其特征在于，所述提取单元包括：

镜头分割模块，用于对所述音视频文件进行镜头分割，获取镜头分割点的图像；

第一提取模块，用于将每一个所述镜头分割点的图像作为一个图像帧，并记录所述关键帧图像在所述音视频文件中的播放位置；

第二提取模块，用于从位于相邻的两个所述关键帧图像之间的每一个关键帧图像中提取字幕文字，并记录所述字幕文字在所述音视频文件中的播放位置；

第三提取模块，用于从位于相邻的两个所述关键帧图像之间的音视频片段中提取音频特征值，并记录所述音频特征值对应的音视频片段在所述音视频文件中的播放位置；

第四提取模块，用于对位于相邻的两个所述关键帧图像之间的音视频片段进行语音识别，将进行语音识别得出的文字作为语音识别文字，并记录所述语音识别文字对应的音视频片段在所述音视频文件中的播放位置。

10.一种检索装置，其特征在于，包括：

11.根据权利要求10所述的检索装置，其特征在于，所述提取单元用于当待检索音视频文件为视频文件时，从视频文件中提取待检索关键信息，所述待检索关键信息包括关键帧图像、字幕文字、音频特征值、语音识别文字。

12.根据权利要求11所述的检索装置，其特征在于，还包括：

13.根据权利要求10所述的检索装置，其特征在于，所述提取单元用于当待检索音视频文件为音频文件时，从音频文件中提取待检索关键信息，所述待检索关键信息包括音频特征值。

14.根据权利要求13所述的检索装置，其特征在于，还包括：

15.一种检索系统，其特征在于，包括：

索引数据库，用于保存所述索引记录。