CN102650993A - 音视频文件的索引建立和检索方法、装置及系统 - Google Patents

音视频文件的索引建立和检索方法、装置及系统 Download PDF

Info

Publication number
CN102650993A
CN102650993A CN2011100468323A CN201110046832A CN102650993A CN 102650993 A CN102650993 A CN 102650993A CN 2011100468323 A CN2011100468323 A CN 2011100468323A CN 201110046832 A CN201110046832 A CN 201110046832A CN 102650993 A CN102650993 A CN 102650993A
Authority
CN
China
Prior art keywords
audio
video document
key message
retrieved
video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2011100468323A
Other languages
English (en)
Inventor
张鲁平
孟犁
杜希鹏
董全武
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University
Peking University Founder Group Co Ltd
Beijing Founder Electronics Co Ltd
Original Assignee
Peking University
Peking University Founder Group Co Ltd
Beijing Founder Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University, Peking University Founder Group Co Ltd, Beijing Founder Electronics Co Ltd filed Critical Peking University
Priority to CN2011100468323A priority Critical patent/CN102650993A/zh
Publication of CN102650993A publication Critical patent/CN102650993A/zh
Pending legal-status Critical Current

Links

Images

Abstract

本发明实施例公开一种音视频文件的索引建立和检索方法、装置及系统,涉及音视频技术领域,可以提高音视频文件的检索效率和成功率。包括:索引建立时,从音视频文件中提取关键信息,将所述关键信息、所述音视频文件及所述音视频文件的存储位置之间的关联关系保存为索引记录。检索时,从索引记录中查找出与所述待检索关键信息相匹配的目标音视频文件的标识;从与所述目标音视频文件的标识关联的存储地址中获取所述目标音视频文件,在所述目标音视频文件中定位所述待检索关键信息的所处位置。本发明实施例主要应用于广播电视内容管理技术领域,特别在海量音视频文件中进行检索时,可以提高检索的效率和成功率。

Description

音视频文件的索引建立和检索方法、装置及系统
技术领域
本发明涉及音视频技术领域,尤其涉及一种音视频文件的索引建立和检索方法、装置及系统。
背景技术
随着广播电视技术的迅猛发展,音视频节目的套数、播出时间及产量也大幅度地增加。与此同时,用户对广播电视的需求也变得多样化。面对音视频节目不断增加和多样化的现状,如何在海量的音视频节目中实现快速检索和定位所需要的音视频节目也逐渐成为广播电视技术领域中亟待解决的问题。
现有技术在实现音视频节目的检索和定位时,首先由工作人员通过素材标题查找到符合该素材标题的音视频文件,然后,对整个的音视频文件进行人工浏览,并由工作人员来确定是否有需要的音视频内容。因而,当采用现有技术在海量的音视频文件中检索所需要的音视频内容时,花费的工作量较大,耗时较长,从而使得音视频文件的检索效率和成功率也较低。
发明内容
本发明的实施例提供一种音视频文件的索引建立和检索方法、装置及系统,提高音视频文件的检索效率和成功率。
为达到上述目的,本发明的实施例采用如下技术方案:
一种音视频文件的索引建立方法,包括:
从音视频文件中提取关键信息并记录所述关键信息在所述音视频文件中的所处位置,所述关键信息包括关键帧图像、字幕文字、音频特征值、语音识别文字;
将所述关键信息、所述音视频文件的标识及所述音视频文件的存储位置之间的关联关系保存为索引记录。
一种音视频文件的检索方法,包括:
从待检索音视频文件中提取待检索关键信息,所述待检索关键信息包括关键帧图像、字幕文字、音频特征值、语音识别文字中的至少一种信息;
将所述待检索关键信息与索引记录中的关键信息进行匹配,并将与所述待检索关键信息完全匹配的关键信息作为目标关键信息;
获取与所述目标关键信息相关联的目标音视频文件的标识、目标音视频文件的存储地址,从所述目标音视频文件的存储地址中获取所述目标音视频文件的标识所表示的目标音视频文件,并在所述目标音视频文件中定位所述目标关键信息的所处位置。
本发明实施例还提供一种索引建立装置,包括:
提取单元,用于从音视频文件中提取关键信息并记录所述关键信息在所述音视频文件中的所处位置,所述关键信息包括关键帧图像、字幕文字、音频特征值、语音识别文字;
保存单元,用于将所述关键信息、所述音视频文件的标识及所述音视频文件的存储位置之间的关联关系保存为索引记录。
一种检索装置,包括:
提取单元,用于从待检索音视频文件中提取待检索关键信息,所述待检索关键信息包括关键帧图像、字幕文字、音频特征值、语音识别文字中的至少一种信息;
匹配单元,用于将所述待检索关键信息与索引记录中的关键信息进行匹配,并将与所述待检索关键信息完全匹配的关键信息作为目标关键信息;
获取单元,用于获取与所述目标关键信息相关联的目标音视频文件的标识、目标音视频文件的存储地址,从所述目标音视频文件的存储地址中获取所述目标音视频文件的标识所表示的目标音视频文件,并在所述目标音视频文件中定位所述目标关键信息的所处位置。
本发明实施例还提供一种音视频文件的检索系统,包括:
索引建立装置,用于从音视频文件中提取关键信息并记录所述关键信息在所述音视频文件中的所处位置,所述关键信息包括关键帧图像、字幕文字、音频特征值、语音识别文字;将所述关键信息、所述音视频文件的标识及所述音视频文件的存储位置之间的关联关系保存为索引记录;
检索装置,用于从待检索音视频文件中提取待检索关键信息,所述待检索关键信息包括关键帧图像、字幕文字、音频特征值、语音识别文字中的至少一种信息;将所述待检索关键信息与索引记录中的关键信息进行匹配,并将与所述待检索关键信息完全匹配的关键信息作为目标关键信息;获取与所述目标关键信息相关联的目标音视频文件的标识、目标音视频文件的存储地址,从所述目标音视频文件的存储地址中获取所述目标音视频文件的标识所表示的目标音视频文件,并在所述目标音视频文件中定位所述目标关键信息的所处位置;
索引数据库,用于保存所述索引记录。
由上述技术方案所描述的本发明实施例,在进行索引建立时,提取音视频文件本身具有的关键帧图像、字幕文字、音频特征值、语音识别文字等信息,并将所述提取出来的信息、音视频文件的标识和存储位置作为索引记录。在进行检索时,首先提取出待检索音视频文件的待检索关键信息,并利用上述待检索关键信息作为检索条件,即可从素材库中查找出与上述待检索音视频文件完全匹配的目标音视频文件,并根据索引建立时所记录的关键信息的所处位置,可以在查找出的目标音视频文件中快速定位待检索关键信息所处位置。与现有技术需要通过人工浏览来查找出目标音视频文件相比,本发明实施例在海量音视频文件中进行检索时,可以利用音视频文件本身的关键帧图像、字幕文字、音频特征值、语音识别文字等信息快速定位到对应目标音视频文件中的位置,可以节省大量的人力资源,提高音视频文件的检索效率和成功率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种音视频文件的索引建立方法的流程图;
图2为本发明实施例提供的一种音视频文件的检索方法的流程图;
图3为本发明实施例提供的一种音视频文件的索引建立装置的结构图;
图4为本发明实施例提供的一种音视频文件的检索装置的结构图;
图5为本发明实施例提供的一种音视频文件的检索系统的结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1:
本发明实施例提供一种音视频文件的索引建立方法,如图1所示,包括如下步骤:
101、从音视频文件中提取关键信息并记录所述关键信息在所述音视频文件中的所处位置,所述关键信息包括关键帧图像、字幕文字、音频特征值、语音识别文字。
具体应用时,素材库中的每一个音视频文件都需要进行关键信息的提取,可选的,本步骤可以通过如下方式实现:
在提取关键帧图像时,首先检测音视频文件中的转场镜头点,在检测出的转场镜头点处对音视频文件进行转场镜头切割,获取镜头分割点的图像。将每一个所述镜头分割点的图像作为一个关键帧图像,并记录所述关键帧图像在所述音视频文件中的播放位置。例如,采用开源Opencv实现关键帧图像的提取,提取出的关键帧图像用来表示一个片段的镜头内容。之后,记录所述关键帧图像在所述音视频文件中的播放位置,以便于在检索时可以实现所述关键帧图像在上述音视频文件中的快速定位。
在提取字幕文字时,将相邻的两个所述关键帧图像作为起点和终点,从位于起点和终点之间的每一个图像帧中提取字幕文字。例如,采用开源Opencv实现字幕文字的提取。然后,记录所述字幕文字在所述音视频文件中的播放位置,以便于在检索时可以快速定位所述字幕文字在上述音视频文件中的播放位置。
在提取音频特征值时,将相邻的两个所述关键帧图像作为起点和终点,从位于起点和终点之间的音视频片段中提取音频特征值,并将其序列化成一串数字,采用这一串数字来表示音频特征值。不同的音视频片段具有不同的音频特征值。提取所述音视频文件中每个音视频片段的音频特征值之后,记录所述音频特征值对应的音视频片段在所述音视频文件中的播放位置,以便于在检索时可以快速定位所述音频特征值对应的音视频片段在上述音视频文件中的播放位置。
在提取语音识别文字时,将相邻的两个所述关键帧图像作为起点和终点,从位于起点和终点之间的音视频片段进行语音识别,将进行语音识别得出的文字作为语音识别文字。例如,采用开源Opencv将音视频文件中的标准普通话识别并转化为文字。之后,记录所述语音识别文字对应的音视频片段在所述音视频文件中的播放位置,以便于在检索时可以快速定位所述语音识别文字对应的音视频片段在上述音视频文件中的播放位置。需要说明的是,本发明实施例将利用语音识别技术从音视频文件中的音频识别出的文字称之为语音识别文字。
102、将所述关键信息、所述音视频文件的标识及所述音视频文件的存储位置之间的关联关系保存为索引记录。以便于在检索时,可以根据上述音视频文件的关键帧图像、字幕文字、音频特征值、语音识别文字中的至少一种信息检索出对应的音视频文件。
相应地,本发明实施例还一种音视频文件的检索方法,如图2所示,包括如下步骤:
201、从待检索音视频文件中提取待检索关键信息,所述待检索关键信息包括关键帧图像、字幕文字、音频特征值、语音识别文字中的至少一种信息。
在进行音视频文件检索时,如果用户希望从素材库中检索出与某段音视频文件相匹配的素材时,可以将该段音视频文件作为检索条件,并从该段音视频文件中提取待检索关键信息,具体提取过程可以参照图1所示的音视频文件的索引建立方法中的步骤101。
202、将所述待检索关键信息与索引记录中的关键信息进行匹配,并将与所述待检索关键信息完全匹配的关键信息作为目标关键信息;
203、获取与所述目标关键信息相关联的目标音视频文件的标识、目标音视频文件的存储地址,从所述目标音视频文件的存储地址中获取所述目标音视频文件的标识所表示的目标音视频文件,并在所述目标音视频文件中定位所述目标关键信息的所处位置。
需要说明的是,由于在索引建立的过程中,执行102之后,在索引数据库的每一条索引记录中保存有关键信息、所述音视频文件的标识及所述音视频文件的存储位置之间的关联关系。因而,在步骤202从索引数据库查找出与所述待检索关键信息完全匹配的关键信息后,可以从所述目标音视频文件的存储位置获取目标音视频文件,并在目标音视频文件中快速定位到关键信息所在位置,例如在目标音视频文件中定位待检索音视频文件对应的字幕文字、音频所在的位置等。
实际应用时,如果采用上述图1所示的索引建立方法对音视频文件进行索引建立,那么在检索时,需要采用上述图2所示的检索方法来实现对所需要的音视频文件的检索。
由上述图1和图2所描述的本发明实施例中,在进行索引建立时,提取音视频文件本身具有的关键帧图像、字幕文字、音频特征值、语音识别文字等信息,并将所述提取出来的信息、音视频文件的标识和存储位置作为索引记录。在对音视频文件进行检索时,首先提取出待检索音视频文件的待检索关键信息,并利用上述待检索关键信息作为检索条件,即可从素材库中查找出与上述待检索音视频文件完全匹配的目标音视频文件,并根据索引建立时所记录的关键信息的所处位置,可以在查找出的目标音视频文件中快速定位待检索关键信息所处位置。与现有技术需要通过人工浏览来查找出目标音视频文件相比,本发明实施例可以节省大量的人力资源,提高音视频文件的检索效率和成功率。
进一步地,上述待检索音视频文件可以为视频文件,也可以为音频文件。
具体地,当上述待检索音视频文件为视频文件时,首先对该视频文件进行待检索关键信息的提取,可以利用图1所示的方法中步骤101从视频文件中提取出关键帧图像、字幕文字、音频特征值、语音识别文字。之后,将所述提取出的待检索关键信息与索引数据库中保存的索引记录中的关键信息进行匹配,如果存在完全匹配的目标关键信息,则结束匹配过程,并获取与所述目标关键信息相关联的目标音视频文件的标识、目标音视频文件的存储地址,从所述目标音视频文件的存储地址中获取所述目标音视频文件的标识所表示的目标音视频文件,并在所述目标音视频文件中定位所述目标关键信息的所处位置。如果不是完全匹配,但是存在与所述待检索关键信息在一定程度上相似的候选关键信息(比如通过设定相似度值来判断匹配的相似程度),则获取所述候选关键信息在与所述候选关键信息关联的音视频文件中的所处位置;将所述待检索关键信息重新与所述获取到的位置上的关键帧相邻图像的关键信息进行匹配,比如,将所述待检索关键信息重新与所述获取到的位置上的关键帧的相邻的上一帧或者下一帧图像的关键信息进行匹配,如果完全匹配,则将与所述待检索关键信息完全匹配的关键信息作为目标关键信息,否则,结束匹配过程。
具体地,当上述待检索音视频文件为音频文件时,首先提取该音频文件对应的音频特征值,也即是将这段音频文件的序列提取出来形成一串由0和1组成的数字序列,并作为该音频文件的音频模板。利用所述音频模板和索引记录中的音频特征值进行匹配,如果完全匹配,则返回与所述音频模板完全匹配的音频特征值关联的音视频文件;如果不是完全匹配,亦即部分匹配,但是在一定程度的范围内相似(比如通过设定相似度值来判断匹配的相似程度),则对该音频文件进行分拆,分拆成更小的一段段音频片段序列,依次使用所述每个音频片段各自的音频特征值与索引记录中的音频特征值进行匹配,如果完全匹配,则将与所述每个音频片段各自的音频特征值完全匹配的各个音频特征值作为目标关键信息,否则,结束匹配过程。需要说明的是,将上述音频文件分拆成更小的一段段音频片段序列的原则是以音频转折点进行分拆,也就是声音相邻高低音最明显的点。
需要说明的是,在检索时,用户也可以直接输入上述关键帧图像、字幕文字、语音特征值、语音识别文字中的一种信息或者几种信息的组合,此时,可以在索引数据库中对这些输入的信息进行直接匹配查询。
另外,可选的,在实际应用时,还可以将通过101提取出来的关键信息显示给用户,便于用户快速浏览到音视频文件的关键字图像、字幕文字、语音识别文字,音频特征值等信息。
实施例2:
本发明实施例提供一种音视频文件的索引建立装置,如图3所示,包括:提取单元11和保存单元12。
提取单元11用于从音视频文件中提取关键信息并记录所述关键信息在所述音视频文件中的所处位置,所述关键信息包括关键帧图像、字幕文字、音频特征值、语音识别文字;
保存单元12用于将所述关键信息、所述音视频文件的标识及所述音视频文件的存储位置之间的关联关系保存为索引记录。
进一步地,(图未示)所述索引建立装置中的提取单元11包括镜头分割模块,第一提取模块,第二提取模块,第三提取模块和第四提取模块。
其中,镜头分割模块,用于对所述音视频文件进行镜头分割,获取镜头分割点的图像;第一提取模块,用于将每一个所述镜头分割点的图像作为一个图像帧,并记录所述关键帧图像在所述音视频文件中的播放位置;第二提取模块,用于从位于相邻的两个所述关键帧图像之间的每一个关键帧图像中提取字幕文字,并记录所述字幕文字在所述音视频文件中的播放位置;第三提取模块,用于从位于相邻的两个所述关键帧图像之间的音视频片段中提取音频特征值,并记录所述音频特征值对应的音视频片段在所述音视频文件中的播放位置;第四提取模块,用于对位于相邻的两个所述关键帧图像之间的音视频片段进行语音识别,将进行语音识别得出的文字作为语音识别文字,并记录所述语音识别文字对应的音视频片段在所述音视频文件中的播放位置。
相应地,本发明实施例还提供一种音视频文件的检索装置,如图4所示,包括:提取单元21,匹配单元22和获取单元23。
其中,提取单元21用于从待检索音视频文件中提取待检索关键信息,所述待检索关键信息包括关键帧图像、字幕文字、音频特征值、语音识别文字中的至少一种信息;
匹配单元22用于将所述待检索关键信息与索引记录中的关键信息进行匹配,并将与所述待检索关键信息完全匹配的关键信息作为目标关键信息;
获取单元23用于获取与所述目标关键信息相关联的目标音视频文件的标识、目标音视频文件的存储地址,从所述目标音视频文件的存储地址中获取所述目标音视频文件的标识所表示的目标音视频文件,并在所述目标音视频文件中定位所述目标关键信息的所处位置。
由上述图3和图4所描述的本发明实施例中,在进行索引建立时,通过索引建立装置提取音视频文件本身具有的关键帧图像、字幕文字、音频特征值、语音识别文字等信息,将所述提取出来的关键信息和音视频文件的标识、存储地址保存为索引记录。在进行检索时,首先提取出待检索音视频文件的待检索关键信息,并利用上述待检索关键信息作为检索条件,即可从素材库中查找出与上述待检索音视频文件完全匹配的目标音视频文件,并根据索引建立时所记录的关键信息的所处位置,可以在查找出的目标音视频文件中快速定位待检索关键信息所处位置。与现有技术需要通过人工浏览来查找出目标音视频文件相比,本发明实施例可以利用音视频文件本身的关键帧图像、字幕文字、音频特征值、语音识别文字等信息快速定位到对应目标音视频文件中的位置,可以节省大量的人力资源,提高音视频文件的检索效率和成功率。
进一步地,当待检索音视频文件为视频文件时,所述检索装置中的提取单元21用于从视频文件中提取待检索关键信息,所述待检索关键信息包括关键帧图像、字幕文字、音频特征值、语音识别文字。
可选的,(图未示)所述检索装置还包括:第一处理单元和第一重匹配单元。
第一处理单元,用于若从索引记录中查找出与所述待检索关键信息部分匹配的候选关键信息时,获取所述候选关键信息在与所述候选关键信息关联的音视频文件中的所处位置;
第一重匹配单元,用于将所述待检索关键信息重新与所述获取到的位置上的关键帧相邻图像的关键信息进行匹配,如果完全匹配,则将与所述待检索关键信息完全匹配的关键信息作为目标关键信息,否则,结束匹配过程。
进一步地,当待检索音视频文件为音频文件时,所述检索装置中的提取单元21用于从音频文件中提取待检索关键信息,所述待检索关键信息包括音频特征值。
可选的,(图未示)所述检索装置还包括:第二处理单元和第二重匹配单元。
第二处理单元,用于若从索引记录中查找出与所述待检索关键信息部分匹配的音频特征值时,将所述音频文件进行分拆成预设个数的音频片段,依次提取所述每个音频片段各自的音频特征值;
第二重匹配单元,用于依次使用所述每个音频片段各自的音频特征值与索引记录中的音频特征值进行匹配,如果完全匹配,则将与所述每个音频片段各自的音频特征值完全匹配的各个音频特征值作为目标关键信息,否则,结束匹配过程。
相应地,本发明实施例还提供一种音视频文件的检索系统,如图5所示,包括:索引建立装置31、检索装置32和索引数据库33。
索引建立装置31用于从音视频文件中提取关键信息并记录所述关键信息在所述音视频文件中的所处位置,所述关键信息包括关键帧图像、字幕文字、音频特征值、语音识别文字;将所述关键信息、所述音视频文件的标识及所述音视频文件的存储位置之间的关联关系保存为索引记录。
检索装置32用于从待检索音视频文件中提取待检索关键信息,所述待检索关键信息包括关键帧图像、字幕文字、音频特征值、语音识别文字中的至少一种信息;将所述待检索关键信息与索引记录中的关键信息进行匹配,并将与所述待检索关键信息完全匹配的关键信息作为目标关键信息;获取与所述目标关键信息相关联的目标音视频文件的标识、目标音视频文件的存储地址,从所述目标音视频文件的存储地址中获取所述目标音视频文件的标识所表示的目标音视频文件,并在所述目标音视频文件中定位所述目标关键信息的所处位置。
索引数据库33用于保存索引记录。
利用本发明实施例提供的检索系统在进行检索时,利用上述待检索音视频文件的待检索关键信息作为检索条件,即可从素材库中查找出与上述待检索音视频文件完全匹配的目标音视频文件,并根据索引建立时所记录的关键信息的所处位置,可以在查找出的目标音视频文件中快速定位待检索关键信息所处位置。与现有技术需要通过人工浏览来查找出目标音视频文件相比,本发明实施例可以节省大量的人力资源,提高音视频文件的检索效率和成功率。
本发明实施例主要应用于广播电视内容管理技术领域,特别在海量音视频文件中对音视频文件进行检索时,可以提高检索的效率和成功率。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (15)

1.一种音视频文件的索引建立方法,其特征在于,包括:
从音视频文件中提取关键信息并记录所述关键信息在所述音视频文件中的所处位置,所述关键信息包括关键帧图像、字幕文字、音频特征值、语音识别文字;
将所述关键信息、所述音视频文件的标识及所述音视频文件的存储位置之间的关联关系保存为索引记录。
2.根据权利要求1所述的音视频文件的索引建立方法,其特征在于,所述从音视频文件中提取关键信息并记录所述关键信息在所述音视频文件中的所处位置包括:
对所述音视频文件进行镜头分割,获取镜头分割点的图像;
将每一个所述镜头分割点的图像作为一个关键帧图像,并记录所述关键帧图像在所述音视频文件中的播放位置;
从位于相邻的两个所述关键帧图像之间的每一个图像帧中提取字幕文字,并记录所述字幕文字在所述音视频文件中的播放位置;
从位于相邻的两个所述关键帧图像之间的音视频片段中提取音频特征值,并记录所述音频特征值对应的音视频片段在所述音视频文件中的播放位置;
对位于相邻的两个所述关键帧图像之间的音视频片段进行语音识别,将进行语音识别得出的文字作为语音识别文字,并记录所述语音识别文字对应的音视频片段在所述音视频文件中的播放位置。
3.一种音视频文件的检索方法,其特征在于,包括:
从待检索音视频文件中提取待检索关键信息,所述待检索关键信息包括关键帧图像、字幕文字、音频特征值、语音识别文字中的至少一种信息;
将所述待检索关键信息与索引记录中的关键信息进行匹配,并将与所述待检索关键信息完全匹配的关键信息作为目标关键信息;
获取与所述目标关键信息相关联的目标音视频文件的标识、目标音视频文件的存储地址,从所述目标音视频文件的存储地址中获取所述目标音视频文件的标识所表示的目标音视频文件,并在所述目标音视频文件中定位所述目标关键信息的所处位置。
4.根据权利要求3所述的音视频文件的检索方法,其特征在于,当待检索音视频文件为视频文件时,从待检索音视频文件中提取待检索关键信息包括:
从视频文件中提取待检索关键信息,所述待检索关键信息包括关键帧图像、字幕文字、音频特征值、语音识别文字。
5.根据权利要求4所述的音视频文件的检索方法,其特征在于,还包括:
若从索引记录中查找出与所述待检索关键信息部分匹配的候选关键信息时,获取所述候选关键信息在与所述候选关键信息关联的音视频文件中的所处位置;
将所述待检索关键信息重新与所述获取到的位置上的关键帧相邻图像的关键信息进行匹配,如果完全匹配,则将与所述待检索关键信息完全匹配的关键信息作为目标关键信息,否则,结束匹配过程。
6.根据权利要求3所述的音视频文件的检索方法,其特征在于,当待检索音视频文件为音频文件时,从待检索音视频文件中提取待检索关键信息包括:
从音频文件中提取待检索关键信息,所述待检索关键信息包括音频特征值。
7.根据权利要求6所述的音视频文件的检索方法,其特征在于,还包括:
若从索引记录中查找出与所述待检索关键信息部分匹配的音频特征值时,将所述音频文件进行分拆成预设个数的音频片段,依次提取所述每个音频片段各自的音频特征值;
依次使用所述每个音频片段各自的音频特征值与索引记录中的音频特征值进行匹配,如果完全匹配,则将与所述每个音频片段各自的音频特征值完全匹配的各个音频特征值作为目标关键信息,否则,结束匹配过程。
8.一种索引建立装置,其特征在于,包括:
提取单元,用于从音视频文件中提取关键信息并记录所述关键信息在所述音视频文件中的所处位置,所述关键信息包括关键帧图像、字幕文字、音频特征值、语音识别文字;
保存单元,用于将所述关键信息、所述音视频文件的标识及所述音视频文件的存储位置之间的关联关系保存为索引记录。
9.根据权利要求8所述的索引建立装置,其特征在于,所述提取单元包括:
镜头分割模块,用于对所述音视频文件进行镜头分割,获取镜头分割点的图像;
第一提取模块,用于将每一个所述镜头分割点的图像作为一个图像帧,并记录所述关键帧图像在所述音视频文件中的播放位置;
第二提取模块,用于从位于相邻的两个所述关键帧图像之间的每一个关键帧图像中提取字幕文字,并记录所述字幕文字在所述音视频文件中的播放位置;
第三提取模块,用于从位于相邻的两个所述关键帧图像之间的音视频片段中提取音频特征值,并记录所述音频特征值对应的音视频片段在所述音视频文件中的播放位置;
第四提取模块,用于对位于相邻的两个所述关键帧图像之间的音视频片段进行语音识别,将进行语音识别得出的文字作为语音识别文字,并记录所述语音识别文字对应的音视频片段在所述音视频文件中的播放位置。
10.一种检索装置,其特征在于,包括:
提取单元,用于从待检索音视频文件中提取待检索关键信息,所述待检索关键信息包括关键帧图像、字幕文字、音频特征值、语音识别文字中的至少一种信息;
匹配单元,用于将所述待检索关键信息与索引记录中的关键信息进行匹配,并将与所述待检索关键信息完全匹配的关键信息作为目标关键信息;
获取单元,用于获取与所述目标关键信息相关联的目标音视频文件的标识、目标音视频文件的存储地址,从所述目标音视频文件的存储地址中获取所述目标音视频文件的标识所表示的目标音视频文件,并在所述目标音视频文件中定位所述目标关键信息的所处位置。
11.根据权利要求10所述的检索装置,其特征在于,所述提取单元用于当待检索音视频文件为视频文件时,从视频文件中提取待检索关键信息,所述待检索关键信息包括关键帧图像、字幕文字、音频特征值、语音识别文字。
12.根据权利要求11所述的检索装置,其特征在于,还包括:
第一处理单元,用于若从索引记录中查找出与所述待检索关键信息部分匹配的候选关键信息时,获取所述候选关键信息在与所述候选关键信息关联的音视频文件中的所处位置;
第一重匹配单元,用于将所述待检索关键信息重新与所述获取到的位置上的关键帧相邻图像的关键信息进行匹配,如果完全匹配,则将与所述待检索关键信息完全匹配的关键信息作为目标关键信息,否则,结束匹配过程。
13.根据权利要求10所述的检索装置,其特征在于,所述提取单元用于当待检索音视频文件为音频文件时,从音频文件中提取待检索关键信息,所述待检索关键信息包括音频特征值。
14.根据权利要求13所述的检索装置,其特征在于,还包括:
第二处理单元,用于若从索引记录中查找出与所述待检索关键信息部分匹配的音频特征值时,将所述音频文件进行分拆成预设个数的音频片段,依次提取所述每个音频片段各自的音频特征值;
第二重匹配单元,用于依次使用所述每个音频片段各自的音频特征值与索引记录中的音频特征值进行匹配,如果完全匹配,则将与所述每个音频片段各自的音频特征值完全匹配的各个音频特征值作为目标关键信息,否则,结束匹配过程。
15.一种检索系统,其特征在于,包括:
索引建立装置,用于从音视频文件中提取关键信息并记录所述关键信息在所述音视频文件中的所处位置,所述关键信息包括关键帧图像、字幕文字、音频特征值、语音识别文字;将所述关键信息、所述音视频文件的标识及所述音视频文件的存储位置之间的关联关系保存为索引记录;
检索装置,用于从待检索音视频文件中提取待检索关键信息,所述待检索关键信息包括关键帧图像、字幕文字、音频特征值、语音识别文字中的至少一种信息;将所述待检索关键信息与索引记录中的关键信息进行匹配,并将与所述待检索关键信息完全匹配的关键信息作为目标关键信息;获取与所述目标关键信息相关联的目标音视频文件的标识、目标音视频文件的存储地址,从所述目标音视频文件的存储地址中获取所述目标音视频文件的标识所表示的目标音视频文件,并在所述目标音视频文件中定位所述目标关键信息的所处位置;
索引数据库,用于保存所述索引记录。
CN2011100468323A 2011-02-25 2011-02-25 音视频文件的索引建立和检索方法、装置及系统 Pending CN102650993A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2011100468323A CN102650993A (zh) 2011-02-25 2011-02-25 音视频文件的索引建立和检索方法、装置及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2011100468323A CN102650993A (zh) 2011-02-25 2011-02-25 音视频文件的索引建立和检索方法、装置及系统

Publications (1)

Publication Number Publication Date
CN102650993A true CN102650993A (zh) 2012-08-29

Family

ID=46693001

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2011100468323A Pending CN102650993A (zh) 2011-02-25 2011-02-25 音视频文件的索引建立和检索方法、装置及系统

Country Status (1)

Country Link
CN (1) CN102650993A (zh)

Cited By (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102970578A (zh) * 2012-11-19 2013-03-13 北京十分科技有限公司 一种多媒体信息识别、训练的方法及装置
CN103366010A (zh) * 2013-07-25 2013-10-23 北京小米科技有限责任公司 一种录音文件的检索方法和装置
CN103761261A (zh) * 2013-12-31 2014-04-30 北京紫冬锐意语音科技有限公司 一种基于语音识别的媒体搜索方法及装置
CN103778204A (zh) * 2014-01-13 2014-05-07 北京奇虎科技有限公司 基于语音分析的视频搜索方法、设备及系统
CN103902603A (zh) * 2012-12-28 2014-07-02 重庆凯泽科技有限公司 一种基于子镜头的视频匹配方法
CN103905694A (zh) * 2014-04-10 2014-07-02 中央电视台 一种关键帧处理方法及系统
CN104123507A (zh) * 2014-07-18 2014-10-29 北京微众文化传媒有限公司 语音文件的处理方法和装置
CN104391924A (zh) * 2014-11-21 2015-03-04 南京讯思雅信息科技有限公司 一种混合音视频检索方法及系统
CN104572714A (zh) * 2013-10-18 2015-04-29 英业达科技有限公司 学习影像的查询系统及其方法
CN104575125A (zh) * 2013-10-10 2015-04-29 北大方正集团有限公司 双音频复读方法和装置
CN105828179A (zh) * 2015-06-24 2016-08-03 维沃移动通信有限公司 视频定位方法和装置
CN105898204A (zh) * 2014-12-25 2016-08-24 支录奎 视频结构化智能录像机
CN105933538A (zh) * 2016-06-15 2016-09-07 维沃移动通信有限公司 一种移动终端的视频查找方法及移动终端
CN105989063A (zh) * 2015-02-09 2016-10-05 大唐软件技术股份有限公司 视频检索方法和装置
CN106454533A (zh) * 2016-10-25 2017-02-22 Tcl集团股份有限公司 显示播放记录的方法及装置
CN106446051A (zh) * 2016-08-31 2017-02-22 北京新奥特云视科技有限公司 Eagle媒资深度搜索方法
CN106488300A (zh) * 2016-10-27 2017-03-08 广东小天才科技有限公司 一种视频内容查看方法及装置
CN107027060A (zh) * 2017-04-18 2017-08-08 腾讯科技(深圳)有限公司 视频片段的确定方法和装置
CN107124648A (zh) * 2017-04-17 2017-09-01 浙江德塔森特数据技术有限公司 通过智能终端识别广告视频来源的方法
CN107766571A (zh) * 2017-11-08 2018-03-06 北京大学 一种多媒体资源的检索方法和装置
CN107798143A (zh) * 2017-11-24 2018-03-13 珠海市魅族科技有限公司 一种信息搜索方法、装置、终端及可读存储介质
CN107920280A (zh) * 2017-03-23 2018-04-17 广州思涵信息科技有限公司 视频、讲义ppt和语音内容精准匹配的方法和系统
CN107992562A (zh) * 2017-11-29 2018-05-04 宁波高新区锦众信息科技有限公司 一种智能交互方法及系统
CN108874815A (zh) * 2017-05-10 2018-11-23 北京国双科技有限公司 音视频的检索方法及装置
CN109101558A (zh) * 2018-07-12 2018-12-28 北京猫眼文化传媒有限公司 一种视频检索方法及装置
CN109284416A (zh) * 2018-11-02 2019-01-29 山东省通信管理局 一种基于内容的海量音频快速检索方法
CN109299324A (zh) * 2018-10-19 2019-02-01 四川巧夺天工信息安全智能设备有限公司 一种标签式视频文件的检索方法
CN109670119A (zh) * 2018-12-29 2019-04-23 咪咕文化科技有限公司 一种数据处理方法、装置和计算机存储介质
CN109710801A (zh) * 2018-12-03 2019-05-03 珠海格力电器股份有限公司 一种视频搜索方法、终端设备及计算机存储介质
CN109740015A (zh) * 2019-01-09 2019-05-10 安徽睿极智能科技有限公司 基于音频浓缩摘要的海量音频检索方法
CN109933691A (zh) * 2019-02-11 2019-06-25 北京百度网讯科技有限公司 用于内容检索的方法、装置、设备和存储介质
CN110598048A (zh) * 2018-05-25 2019-12-20 北京中科寒武纪科技有限公司 视频检索方法及视频检索映射关系生成方法、装置
CN110888993A (zh) * 2018-08-20 2020-03-17 珠海金山办公软件有限公司 一种复合文档检索方法、装置及电子设备
CN111554329A (zh) * 2020-04-08 2020-08-18 咪咕音乐有限公司 音频剪辑方法、服务器及存储介质
CN112291574A (zh) * 2020-09-17 2021-01-29 上海东方传媒技术有限公司 一种基于人工智能技术的大型体育赛事内容管理系统
CN113065018A (zh) * 2021-04-13 2021-07-02 杭州海康威视数字技术股份有限公司 一种音视频的索引库创建和检索方法、装置及电子设备
CN115065865A (zh) * 2022-06-23 2022-09-16 北京奇艺世纪科技有限公司 一种视频合成方法、装置、电子设备及存储介质
CN115309920A (zh) * 2022-10-08 2022-11-08 国家广播电视总局信息中心 一种基于融合大数据的音视频管理方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101021855A (zh) * 2006-10-11 2007-08-22 鲍东山 基于内容的视频检索系统
CN101021857A (zh) * 2006-10-20 2007-08-22 鲍东山 基于内容分析的视频搜索系统
CN101620629A (zh) * 2009-06-09 2010-01-06 中兴通讯股份有限公司 一种提取视频索引的方法、装置及视频下载系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101021855A (zh) * 2006-10-11 2007-08-22 鲍东山 基于内容的视频检索系统
CN101021857A (zh) * 2006-10-20 2007-08-22 鲍东山 基于内容分析的视频搜索系统
CN101620629A (zh) * 2009-06-09 2010-01-06 中兴通讯股份有限公司 一种提取视频索引的方法、装置及视频下载系统

Cited By (43)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102970578A (zh) * 2012-11-19 2013-03-13 北京十分科技有限公司 一种多媒体信息识别、训练的方法及装置
CN103902603A (zh) * 2012-12-28 2014-07-02 重庆凯泽科技有限公司 一种基于子镜头的视频匹配方法
CN103366010A (zh) * 2013-07-25 2013-10-23 北京小米科技有限责任公司 一种录音文件的检索方法和装置
CN104575125B (zh) * 2013-10-10 2017-06-30 北大方正集团有限公司 双音频复读方法和装置
CN104575125A (zh) * 2013-10-10 2015-04-29 北大方正集团有限公司 双音频复读方法和装置
CN104572714A (zh) * 2013-10-18 2015-04-29 英业达科技有限公司 学习影像的查询系统及其方法
CN103761261A (zh) * 2013-12-31 2014-04-30 北京紫冬锐意语音科技有限公司 一种基于语音识别的媒体搜索方法及装置
CN103761261B (zh) * 2013-12-31 2017-07-28 北京紫冬锐意语音科技有限公司 一种基于语音识别的媒体搜索方法及装置
CN103778204A (zh) * 2014-01-13 2014-05-07 北京奇虎科技有限公司 基于语音分析的视频搜索方法、设备及系统
CN103905694A (zh) * 2014-04-10 2014-07-02 中央电视台 一种关键帧处理方法及系统
CN104123507A (zh) * 2014-07-18 2014-10-29 北京微众文化传媒有限公司 语音文件的处理方法和装置
CN104391924A (zh) * 2014-11-21 2015-03-04 南京讯思雅信息科技有限公司 一种混合音视频检索方法及系统
CN105898204A (zh) * 2014-12-25 2016-08-24 支录奎 视频结构化智能录像机
CN105989063B (zh) * 2015-02-09 2019-11-12 大唐软件技术股份有限公司 视频检索方法和装置
CN105989063A (zh) * 2015-02-09 2016-10-05 大唐软件技术股份有限公司 视频检索方法和装置
CN105828179A (zh) * 2015-06-24 2016-08-03 维沃移动通信有限公司 视频定位方法和装置
CN105933538A (zh) * 2016-06-15 2016-09-07 维沃移动通信有限公司 一种移动终端的视频查找方法及移动终端
CN105933538B (zh) * 2016-06-15 2019-06-07 维沃移动通信有限公司 一种移动终端的视频查找方法及移动终端
CN106446051A (zh) * 2016-08-31 2017-02-22 北京新奥特云视科技有限公司 Eagle媒资深度搜索方法
CN106454533A (zh) * 2016-10-25 2017-02-22 Tcl集团股份有限公司 显示播放记录的方法及装置
CN106488300A (zh) * 2016-10-27 2017-03-08 广东小天才科技有限公司 一种视频内容查看方法及装置
CN107920280A (zh) * 2017-03-23 2018-04-17 广州思涵信息科技有限公司 视频、讲义ppt和语音内容精准匹配的方法和系统
CN107124648A (zh) * 2017-04-17 2017-09-01 浙江德塔森特数据技术有限公司 通过智能终端识别广告视频来源的方法
CN107027060A (zh) * 2017-04-18 2017-08-08 腾讯科技(深圳)有限公司 视频片段的确定方法和装置
CN108874815A (zh) * 2017-05-10 2018-11-23 北京国双科技有限公司 音视频的检索方法及装置
CN107766571A (zh) * 2017-11-08 2018-03-06 北京大学 一种多媒体资源的检索方法和装置
CN107798143A (zh) * 2017-11-24 2018-03-13 珠海市魅族科技有限公司 一种信息搜索方法、装置、终端及可读存储介质
CN107992562A (zh) * 2017-11-29 2018-05-04 宁波高新区锦众信息科技有限公司 一种智能交互方法及系统
CN110598048A (zh) * 2018-05-25 2019-12-20 北京中科寒武纪科技有限公司 视频检索方法及视频检索映射关系生成方法、装置
CN109101558A (zh) * 2018-07-12 2018-12-28 北京猫眼文化传媒有限公司 一种视频检索方法及装置
CN110888993A (zh) * 2018-08-20 2020-03-17 珠海金山办公软件有限公司 一种复合文档检索方法、装置及电子设备
CN109299324A (zh) * 2018-10-19 2019-02-01 四川巧夺天工信息安全智能设备有限公司 一种标签式视频文件的检索方法
CN109299324B (zh) * 2018-10-19 2022-03-04 四川巧夺天工信息安全智能设备有限公司 一种标签式视频文件的检索方法
CN109284416A (zh) * 2018-11-02 2019-01-29 山东省通信管理局 一种基于内容的海量音频快速检索方法
CN109710801A (zh) * 2018-12-03 2019-05-03 珠海格力电器股份有限公司 一种视频搜索方法、终端设备及计算机存储介质
CN109670119A (zh) * 2018-12-29 2019-04-23 咪咕文化科技有限公司 一种数据处理方法、装置和计算机存储介质
CN109740015A (zh) * 2019-01-09 2019-05-10 安徽睿极智能科技有限公司 基于音频浓缩摘要的海量音频检索方法
CN109933691A (zh) * 2019-02-11 2019-06-25 北京百度网讯科技有限公司 用于内容检索的方法、装置、设备和存储介质
CN111554329A (zh) * 2020-04-08 2020-08-18 咪咕音乐有限公司 音频剪辑方法、服务器及存储介质
CN112291574A (zh) * 2020-09-17 2021-01-29 上海东方传媒技术有限公司 一种基于人工智能技术的大型体育赛事内容管理系统
CN113065018A (zh) * 2021-04-13 2021-07-02 杭州海康威视数字技术股份有限公司 一种音视频的索引库创建和检索方法、装置及电子设备
CN115065865A (zh) * 2022-06-23 2022-09-16 北京奇艺世纪科技有限公司 一种视频合成方法、装置、电子设备及存储介质
CN115309920A (zh) * 2022-10-08 2022-11-08 国家广播电视总局信息中心 一种基于融合大数据的音视频管理方法及系统

Similar Documents

Publication Publication Date Title
CN102650993A (zh) 音视频文件的索引建立和检索方法、装置及系统
CN106331778A (zh) 视频推荐方法和装置
CN103761261A (zh) 一种基于语音识别的媒体搜索方法及装置
EP2471025B1 (en) A method and system for preprocessing the region of video containing text
CN102222103A (zh) 视频内容的匹配关系的处理方法及装置
CN103674012A (zh) 语音定制方法及其装置、语音识别方法及其装置
CN103631819A (zh) 一种图片命名的方法及系统
CN103324614A (zh) 图像识别搜索方法及装置
JP2006163877A (ja) メタデータ生成装置
CN103152633B (zh) 一种关键词的识别方法及装置
CN103593356A (zh) 基于多媒体信息指纹技术的信息搜索方法、系统和应用
CN104994404A (zh) 一种为视频获取关键词的方法及装置
CN107369450B (zh) 收录方法和收录装置
CN107241618B (zh) 收录方法和收录装置
CN1860767A (zh) 用于为便携式信息系统自动检索信息的系统和方法
CN101673267B (zh) 音频、视频内容的搜索方法
CN105740374A (zh) 基于分布式内存的三维平台数据模糊查询方法
CN106850923B (zh) 联系人信息显示方法、系统及其设备
CN116011443A (zh) 一种基于人工智能的文件要素信息识别方法及装置
US20080196054A1 (en) Method and system for facilitating analysis of audience ratings data for content
CN104504021A (zh) 数据匹配方法及装置
CN101789029B (zh) 一种视频图像的分析方法、装置和数据库
JP2000348142A (ja) 文字認識装置,文字認識方法,および文字認識方法を実行するプログラムを記録した記録媒体
CN103051971A (zh) 一种输入法及数字电视终端
CN103761230A (zh) 一种搜索引擎抓取网页媒体内容信息的方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20120829

Assignee: China Digital Video (Beijing) Limited

Assignor: Peking University Founder Group Corp| Beijing Peking University Founder Electronics Co., Ltd.|Peking University

Contract record no.: 2013990000783

Denomination of invention: Index establishing and searching methods, devices and systems for audio-video file

License type: Exclusive License

Record date: 20131122

LICC Enforcement, change and cancellation of record of contracts on the licence for exploitation of a patent or utility model
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20120829