CN100501738C - 一种针对可播放媒体文件的搜索方法、系统及装置 - Google Patents
一种针对可播放媒体文件的搜索方法、系统及装置 Download PDFInfo
- Publication number
- CN100501738C CN100501738C CNB2006101507080A CN200610150708A CN100501738C CN 100501738 C CN100501738 C CN 100501738C CN B2006101507080 A CNB2006101507080 A CN B2006101507080A CN 200610150708 A CN200610150708 A CN 200610150708A CN 100501738 C CN100501738 C CN 100501738C
- Authority
- CN
- China
- Prior art keywords
- media file
- file
- playable media
- fragment
- time code
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种针对可播放媒体文件的搜索方法,包括以下步骤:关联步骤,在外部时间码文件与互联网中的可播放媒体文件之间建立关联;切分方案确定步骤,对所述外部时间码文件进行分析,确定所需的外部时间码文件的片段;根据所述确定片段的起止时间点,获得与其相关联的可播放媒体文件的切分方案;信息获取步骤,根据所述切分方案获取所述相关联的可播放媒体文件的片段或者片段组合。本发明利用外部时间码文件能够获得或者说分析出每个相关联的可播放媒体文件的相关内容,并分析和切分出更为详细、精确的内容片段,或者组合片段,达到更好的搜索可播放媒体文件的效果,也使得搜索结果更丰富,进而提高对媒体文件的搜索准确度和搜索个性化。
Description
技术领域
本发明涉及互联网信息处理领域,特别是涉及一种针对互联网中可播放媒体文件的搜索方法和系统,一种针对可播放媒体文件的搜索数据库的建立方法,以及针对可播放媒体文件的搜索服务器和信息获取客户端。
背景技术
如今,通过搜索引擎检索已成为人们从互联网中获取信息和资源的一种最为快捷和有效的手段。利用搜索引擎,人们几乎在片刻之间就可以检索到需要的内容,例如新闻、影视和音乐等。其中,尤其以对可播放媒体文件的检索最常为人们所使用。
用户之所以能够快速得到检索结果,前提是由搜索引擎完成了对网络资源的搜集和整理。当用户输入关键字进行检索时,搜索引擎从已经搜集整理的结果中取出符合要求的内容呈现给用户。在这一过程中,对网络资源的搜集和整理成为正确呈现检索内容的前提和基础。
现有技术中对可播放媒体文件的检索过程如下:搜索引擎通对可播放媒体文件中例如链接信息或者上下文中的歌名,演唱者等文字信息,进行收集,并获取相应的可播放媒体文件的链接;然后根据用户的检索关键词,将相应的可播放媒体文件链接显示在用户的搜索结果列表中。显然,上述现有技术中,搜索引擎在互联网上搜索可播放媒体文件内容时,仅搜索到整体链接信息,而对于可播放媒体文件的分段信息往往不能获取。
此外,对于用户想要获取某个片段的可播放媒体文件信息的情况,比如,用户常常想要获取某个音频文件的片段作为手机铃声或彩铃,现有技术只能通过下载已截取的音频文件,然而,这种事先通过软件物理截取后再上传的音频文件在搜索中并不多见,并且截取的文件部分往往并非用户所需。
中国专利第200510097847.7号申请文件公开了一种音乐搜索系统和音乐搜索装置的发明,该发明包括音乐搜索装置以及音乐搜索终端,其中所述音乐搜索装置包括:输入单元,用于输入由开启/关闭信号表示的时序信号;数据存储单元,用于与音乐相关信息相关联存储节奏数据的多个片段,所述音乐相关信息与对应于所述节奏数据的音乐相关;搜索单元,用于在所述数据存储单元中存储的节奏数据的多个片段中搜索具有与输入所述输入单元的时序信号相同的波动(fluctuation)图形或相似波动图形的节奏数据;以及搜索结果输出单元,用于读取与从所述数据存储单元通过所述搜索单元发现的节奏数据相关联存储的音乐相关信息,并输出读取的音乐相关信息,作为搜索的搜索结果,其中所述音乐搜索终端包括:通信单元,用于通过通信线与所述音乐搜索装置通信;操作单元,用于通过所述通信单元将所述时序信号输入所述输入单元;接收单元,用于从所述搜索结果输出单元通过所述通信单元接收所述输入时序信号的搜索结果;以及显示单元,用于显示所述接收的搜索结果。
然而,该发明虽然对可播放媒体文件进行了细分,但其音乐搜索终端为移动电话,目的是使基于节奏输入的音乐搜索装置更容易使用并更容易实现,因而局限性较大,亦不适用于互联网中按照用户要求或其它要求获得可播放媒体文件的片段信息。
总之,现有的可播放媒体文件搜索中,如何建立一个搜索数据库实现对可播放媒体文件的细分,获取各个部分的资源,并根据用户需求或其它要求组合成相应的搜索目标,满足用户的不同需要是本领域技术人员迫切需要解决的技术问题。
发明内容
本发明所要解决的技术问题是提供一种针对可播放媒体文件的搜索方法和系统,以解决现有技术条件下无法按照用户需求提供可播放媒体文件某个或多个片段的问题。
本发明的另一个目的是提供一种建立针对可播放媒体文件的搜索数据库的方法,从而可以按照用户需求提供可播放媒体文件某个或多个片段、片段组合。
本发明的另一个目的是提供一种针对可播放媒体文件的搜索服务器和信息获取客户端,可以实现对可播放媒体文件的细分,获取各个部分的资源,并根据用户需求或其它要求组合成相应的搜索目标。
为解决上述技术问题,本发明提供了一种针对可播放媒体文件的搜索方法,包括以下步骤:
关联步骤,在外部时间码文件与互联网中的可播放媒体文件之间建立关联;所述外部时间码文件为一种对应可播放媒体文件的记录有时间码和相应文本信息的文件;所述时间码是针对可播放媒体文件中一节/段可播放媒体信息的时间编码;
切分方案确定步骤,对所述外部时间码文件进行分析,确定所需的外部时间码文件的片段;根据所述确定片段的起止时间点,获得与其相关联的可播放媒体文件的切分方案;
信息获取步骤,根据所述切分方案获取所述相关联的可播放媒体文件的片段或者片段组合。
其中,所述关联步骤和切分方案确定步骤均在服务器端完成,所述切分方案包括相关联的可播放媒体文件链接和信息获取起止点;客户端获取用户所需的可播放媒体文件链接和信息获取起止点,进而完成信息获取。优选的,所述起止点为该外部时间码文件片段在相关联的可播放媒体文件中对应的起止时间点;或者,所述起止点为该外部时间码文件片段在相关联的可播放媒体文件中对应的各数据包或字节的起止位置点。
另一实现方式为:所述关联步骤和切分方案确定步骤均在服务器端完成,所述切分方案包括相关联的可播放媒体文件片段或者片段组合的链接,所述链接是根据所述外部时间码的片段对相关联的可播放媒体文件进行实际切分后另存而得到的;客户端获取用户所需片段或者片段组合的链接,进而完成信息获取。
另一可行的实现方式为:所述切分方案确定步骤以及信息获取步骤均在客户端完成;并且,在切分方案确定步骤之前,还包括:客户端获取用户所需的可播放媒体文件链接及其相关联的外部时间码文件。
优选的,通过文本聚类的方式将可播放媒体文件和外部时间码文件进行关联。其中,所述关联步骤还可以包括:在所述同一类的外部时间码文件中筛选出一个典型的外部时间码文件作为后续分析的依据。
优选的,所述分析方法为:针对外部时间码文件的文本分析、语义分析、语言模型分析或分词分析。例如:当需要搜索音频文件的高潮片段时,所述分析过程采用以下步骤实现:对所述外部时间码文件通过文本分析确定包括重复次数在内的识别参数;根据所述识别参数对所述外部时间码文件的各个片段赋予相应的权重值,所述权重值的高低决定了该片段是否为高潮片段的优先程度。
上述方法中,所述获取为本地下载或者在线播放。
本发明还提供了一种针对可播放媒体文件的搜索系统,包括:
关联单元,用于在外部时间码文件与互联网中的可播放媒体文件之间建立关联;所述外部时间码文件为一种对应可播放媒体文件的记录有时间码和相应文本信息的文件;所述时间码是针对可播放媒体文件中一节/段可播放媒体信息的时间编码;
切分方案确定单元,用于对所述外部时间码文件进行分析,确定所需的外部时间码文件的片段;以及根据所述确定的外部时间码文件的片段,获得与其相关联的可播放媒体文件的切分方案;
信息获取单元,用于根据所述切分方案获取所述相关联的可播放媒体文件的片段或者片段组合。
优选的,所述关联单元和切分方案确定单元位于服务器端,所述切分方案包括相关联的可播放媒体文件链接和信息获取起止点。所述信息获取单元位于客户端中,所述客户端连接服务器端,获取用户所需的可播放媒体文件链接和信息获取起止点。其中,所述起止点为该外部时间码文件片段在相关联的可播放媒体文件中对应的起止时间点;或者,所述起止点为该外部时间码文件片段在相关联的可播放媒体文件中对应的各数据包或者字节的起止位置点。
另一可行实现方式,所述关联单元和切分方案确定单元位于服务器端;所述切分方案包括相关联的可播放媒体文件片段或者片段组合的链接,所述链接是根据所述外部时间码的片段对相关联的可播放媒体文件进行实际切分后另存而得到的;所述信息获取单元位于客户端中,所述客户端连接服务器端,客户端获取用户所需片段或者片段组合的链接,进而完成信息获取。
另一可行实现方式,所述关联单元位于服务器端,所述切分方案确定单元和信息获取单元位于客户端中,所述客户端连接服务器端,获取用户所需的可播放媒体文件链接及其相关联的外部时间码文件。
优选的,所述关联单元采用文本聚类的方式将外部时间码文件和可播放媒体文件进行关联。其中,所述关联单元还可以包括:外部时间码文件整理模块,用于在所述同一类的外部时间码文件中筛选出一个典型的外部时间码文件作为后续分析的依据。
本发明还公开了一种针对可播放媒体文件的搜索数据库的建立方法,包括以下步骤:
关联步骤,在外部时间码文件与互联网中的可播放媒体文件之间建立关联;所述外部时间码文件为一种对应可播放媒体文件的记录有时间码和相应文本信息的文件;所述时间码是针对可播放媒体文件中一节/段可播放媒体信息的时间编码;
切分方案确定步骤,对所述外部时间码文件进行分析,确定所需的外部时间码文件的片段;根据所述确定的外部时间码文件的片段,获得对其相关联的可播放媒体文件的切分方案;
存储步骤,将所述切分方案存储至搜索数据库;所述切分方案设置有检索标识。
其中,所述切分方案包括相关联的可播放媒体文件链接和信息获取起止点。或者,所述切分方案包括根据所述外部时间码的片段对相关联的可播放媒体文件进行实际切分得到的可播放媒体文件片段或者片段组合的链接。
本发明还要求保护一种针对可播放媒体文件的搜索服务器,包括:
第一存储器,用于存储外部时间码文件与互联网中的可播放媒体文件的关联信息、以及针对可播放媒体文件的第一切分方案,所述第一切分方案包括相关联的可播放媒体文件链接以及信息获取起止点,所述起止点由外部时间码文件分析获得;所述外部时间码文件为一种对应可播放媒体文件的记录有时间码和相应文本信息的文件;所述时间码是针对可播放媒体文件中一节/段可播放媒体信息的时间编码;
查询器,用于根据用户的查询条件检索相应的切分方案;
接口单元,用于接收用户的查询请求以及返回相应的切分方案。
其中,所述起止点可以为该外部时间码文件片段在相关联的可播放媒体文件中对应的各数据包或字节的起止位置点。
所述起止点也可以为该外部时间码文件片段在相关联的可播放媒体文件中对应的起止时间点;所述搜索服务器还包括起止位置点计算单元,用于根据所述起止时间点、可播放媒体文件的压缩格式计算在所述可播放媒体文件中对应的各数据包或字节的实际存储起止位置点。
所述起止点也可以为该外部时间码文件片段在相关联的可播放媒体文件中对应的起止时间点;所述搜索服务器还包括起止位置点确定单元,用于调用相应的播放程序,先读取相关联的可播放媒体文件的文件头信息和部分媒体信息,然后根据所述起止时间点进行跳转,得到字节偏移量信息,从而确定在该可播放媒体文件中对应的各数据包或字节的实际存储起止位置点。
优选的,所述的搜索服务器还可以包括:第二存储器,用于存储第二切分方案,所述第二切分方案包括相关联的可播放媒体文件片段或者片段组合的链接,所述链接是根据所述外部时间码的片段对相关联的可播放媒体文件进行实际切分后另存而得到的。
优选的,所述的搜索服务器还可以包括:下载单元,用于根据用户的查询请求获取所需的片段,并产生相应的播放列表,一同返回客户端;或者将所述片段组合后返回客户端。
本发明还提供了一种针对可播放媒体文件的信息获取客户端,包括:
切分方案获取单元,用于接收针对可播放媒体文件的切分方案,所述切分方案包括相关联的可播放媒体文件链接以及信息获取起止点,所述起止点为该外部时间码文件片段在相关联的可播放媒体文件中对应的起止时间点;所述外部时间码文件为一种对应可播放媒体文件的记录有时间码和相应文本信息的文件;所述时间码是针对可播放媒体文件中一节/段可播放媒体信息的时间编码;
起止位置点确定单元,用于根据所述起止时间点确定在所述可播放媒体文件中对应的各数据包或字节的实际存储起止位置点;
信息获取单元,用于完成信息获取。
所述起止位置点确定单元可以通过以下方式确定实际存储起止位置点:根据所述起止时间点、可播放媒体文件的压缩格式计算在所述可播放媒体文件中对应的各数据包或字节的实际存储起止位置点。
所述起止位置点确定单元也可以通过以下方式确定实际存储起止位置点:调用相应的播放程序,先读取相关联的可播放媒体文件的文件头信息和部分媒体信息,然后根据所述起止时间点进行跳转,得到字节偏移量信息,从而确定在该可播放媒体文件中对应的各数据包或字节的实际存储起止位置点。
优选的,所述的信息获取客户端还可以包括:整合器,用于整合多个本地下载的可播放媒体文件片段;封装器,将本地下载的可播放媒体文件片段,根据所需压缩格式封装为新的可播放媒体文件;以及切分方案确定单元,用于对接收的外部时间码文件进行分析,确定所需的外部时间码文件的片段;以及根据所述确定的外部时间码文件的片段,获得针对其相关联的可播放媒体文件的切分方案。
当需要搜索音频文件的高潮片段时,所述切分方案确定单元具体包括:文本分析模块,用于对所述外部时间码文件通过文本分析确定包括重复次数在内的识别参数;权重赋予模块,用于根据所述识别参数对所述外部时间码文件的各个片段赋予相应的权重值,所述权重值的高低决定了该片段是否为高潮片段的优先程度;切分方案确定模块,用于根据所述确定的外部时间码文件的片段,获得针对其相关联的可播放媒体文件的切分方案。
所述的信息获取客户端还可以包括:播放列表生成单元,用于建立播放列表,相应的播放器可以依据该播放列表连续播放多个可播放媒体文件的片段。
与现有技术相比,本发明具有以下优点:
本发明利用外部时间码文件能够获得或者说分析出每个相关联的可播放媒体文件的相关内容,并分析和切分出更为详细、精确的内容片段,或者组合片段,达到更好的搜索可播放媒体文件的效果,也使得搜索结果更丰富。
并且,本发明可以大大提高搜索可播放媒体资源的准确性,能够对可播放媒体文件进行细分,获取各个部分的资源,并根据需求组合成相应的搜索目标,满足用户不同的需要,进而提高对媒体文件的搜索准确度和搜索个性化。
附图说明
图1是本发明针对可播放媒体文件的搜索方法的实施例流程图;
图2是采用图1所示方法搜索音频文件的高潮部分的流程图;
图3是图2所示实施例中返回搜索结果信息的示意图;
图4是图2所示实施例中返回歌词信息的示意图;
图5a-图5b是本发明针对可播放媒体文件的搜索系统的实施例结构框图;
图6是本发明针对可播放媒体文件的搜索数据库的建立方法的实施例流程图;
图7是针对可播放媒体文件的搜索服务器的实施例结构框图;
图8是本发明一种信息获取客户端的实施例结构框图。
具体实施方式
在结合具体的实施例说明本发明的方法之前,首先介绍一下可播放媒体文件所涉及的几个概念。
互联网中的可播放媒体文件是将数字可播放媒体以数据格式存储在计算机可读介质中,其中可播放媒体是一个数据序列,在时间上断续,通过采样和量化,把模拟可播放媒体信号转换成由许多二进制数1和0组成的数字可播放媒体信号。通常,互联网中的可播放媒体文件包括音频文件、视频文件、FLASH文件等等,例如,常见的文件格式后缀为swf、mpg、mp4、rm、mp3、wma、wmv、ASF等都是可播放媒体文件的类型。
时间码是针对每一节/段可播放媒体信息记录的唯一的时间编码。外部时间码文件是一种对应可播放媒体的带有时间码和相应文本信息的文件。通常体现为音频内容的歌词或对白或视频内容的字幕信息。例如,.LRC歌词文件或.SUB字幕格式文件等。
例如,歌词文件
[ti:果汁分你一半]
[ar:花儿]
[by:柳絮飘]
[offset:500]
[00:08.01]编辑:柳絮飘
[00:10.01]我要那个那个那个那个那个那个那个啊
[02:24.74][02:14.73][01:24.74][00:14.76]你要那个那个那个那个那个那个
那个啊
… … … … … … …
上例中前部包括一些歌名、作者等文本属性信息,后面的歌词部分都带有相应的时间戳,有多个时间戳的歌词是分别在这些时间戳开始时都会显示的歌词,一旦遇到下一个开始显示的歌词的时间戳,当前显示的歌词即不再显示,也就是说下一个起始时间是上一段歌词的终止时间。
例如,字幕文件
… … … … … … …
00:01:23,249-->00:01:27,276
不要用超能力干坏事,我都知道了,查尔斯
上例中字幕文件包括了字幕显示的起止时间和终止时间,根据上述时间戳显示下方的字幕信息。
上面两个例子仅仅是通常所见的两种媒体文件的外部时间码文件,其他的可播放媒体文件也是可以建立这样的外部时间码文件的,根据不同的需求建立不同的时间码文件,也就是说所有格式的可播放媒体文件都可以具有对应的外部时间码文件。
参照图1,是本发明一种针对可播放媒体文件的搜索方法的流程图,包括以下步骤:
步骤101、关联步骤,在外部时间码文件与互联网中的可播放媒体文件之间建立关联;
步骤102、切分方案确定步骤,对所述外部时间码文件进行分析,确定所需的外部时间码文件的片段;以及根据所述确定片段的起止时间点,获得与其相关联的可播放媒体文件的切分方案;
步骤103、信息获取步骤,根据所述切分方案获取所述相关联的可播放媒体文件的片段或者片段组合。
所述信息获取一般可以包括下载到本地和在线播放两种方式,下面的描述一般采用下载来表示信息获取进行说明。
图1所示的搜索方法中涉及服务器端和客户端,其中,可以分为以下两种情况:
第一种实现方式,所述关联步骤101、切分方案确定步骤103均在服务器端完成,而客户端获取用户所需的切分方案,进而依据切分方案中的切分信息完成下载,得到所需的可播放媒体文件的片段或者片段组合。
第二实现方式,仅仅所述关联步骤101在服务器端完成,而切分方案确定步骤103,以及下载步骤104都由客户端完成,客户端获取所需的可播放媒体文件链接及其相关联的外部时间码文件,进而完成分析、切分方案确定,下载得到所需的可播放媒体文件的片段或者片段组合。
当然在上述两种情况下,为了帮助用户实现检索,需要在服务器端针对可播放媒体文件链接及其相关联的外部时间码文件设置一些关键词或者类别索引,或者在服务器端针对切分方案设置关键词或者类别索引,但是由于该部分在搜索领域而言是非常公知的,所以在此就不进行赘述了。例如,用户可以通过各种浏览器实现对所需信息的检索,然后通过触发客户端而使得客户端能够获取用户所需的切分方案或者可播放媒体文件链接及其相关联的外部时间码文件。
对于上述第一种实现方式,可以采用虚拟切分,即所述切分方案中的切分信息可以为相关联的可播放媒体文件链接和下载起止点,客户端获取用户所需的可播放媒体文件链接和下载起止点,进而完成下载。对于虚拟切分获得的某个外部时间码文件相关联的可播放媒体链接,只有当用户下载或者观看此段可播放媒体文件时,才会在客户端下载并播放,实际的文件并没有任何变化。可以理解的是,因为用户有不同的需求,也会有不同的组合需求,所以切分方案不是唯一的,每种切分方案都会存储在搜索数据库中,当用户进行搜索时,提供给用户与关键词对应的切分方案。例如,用户想要搜索某个现场演唱会视频文件里找到某一个专辑中的歌曲所对应的歌曲片段,经过虚拟切分后,会把符合这个专辑中歌曲名称的片段对应的视频文件起止点提供给用户,从而使用户得到某个专辑中歌曲对应的现场演唱会版本。然而,由于不同的专辑有不同的歌曲,而同一首歌曲也可能会在不同的专辑中,所以用户可以获得所有符合这个专辑中歌曲名称的片段对应的视频文件起止点。
其中,所述起止点为该外部时间码文件片段在相关联的可播放媒体文件中对应的起止时间点;或者,所述起止点为该外部时间码文件片段在相关联的可播放媒体文件中对应的各数据包或字节的起止位置点。当然,当所述起止点为对应的起止时间点时,客户端需要能够根据所述起止时间点确定在所述可播放媒体文件中对应的各数据包或字节的实际存储起止位置点。
所述起止位置点的确定方式可以为:根据所述起止时间点、可播放媒体文件的压缩格式计算在所述可播放媒体文件中对应的各数据包或字节的实际存储起止位置点,因为标准的音频格式已经存在确定的采样频率和存储标准。例如,众所周知,压缩音频文件时,是按照固定的比特率进行压缩的,相应地,可以经过反向转换,计算得出该音频文件对应于其外部时间码的位置,从而形成线性的对应。优选的,还可以首先获取所需的可播放媒体文件的文件头信息,再结合其压缩格式信息计算得到实际存储起止位置点,由于文件头信息数据量很小但是可以提供更多更详细的信息,故可以提高计算速度和精度。
另外,所述起止位置点的确定方式还可以为:调用相应的播放程序,先读取相关联的可播放媒体文件的文件头信息和部分媒体信息,然后根据所述起止时间点进行跳转,得到字节偏移量信息,从而确定在该可播放媒体文件中对应的各数据包或字节的实际存储起止位置点,例如,Windows Media流媒体技术就可以实现上述过程。
由于音视频文件的文件头很小,在处理中可以忽略不计,故可以加上一定的偏移量保证音频文件和时间码的精确线性对应,实际中可以通过专用软件或者通过现有的媒体播放器的预处理过程得到相应的字节信息保证这种线性对应。
对于上述第一种实现方式,也可以采用实际切分,即所述切分方案中的切分信息还可以为:相关联的可播放媒体文件片段或者片段组合的链接,所述链接是根据所述外部时间码的片段对相关联的可播放媒体文件进行实际切分后另存而得到的;客户端获取用户所需片段或者片段组合的链接,进而完成下载。上述过程中,服务器端事先存储了相关链接,从而避免了实时计算的过程,提高检索速度,但是可能会带来对服务器的性能、存储空间要求较高,带来一定的资源浪费,针对某些特殊的或者点击率较高的下载方案还是非常可行的。总之,本领域技术人员完全可以根据需要采用上述提出的两种切分方案择一使用,或者组合使用,都属于本发明的构思之一。
实际切分就是通过工具软件,根据分析得到的起止点来物理切割可播放媒体文件,把可播放媒体文件分割成多个文件片段,并另存从而形成新的链接。用户可以直接根据检索到的切分方案点击对应的链接下载即可获得所需的可播放媒体文件的片段。
优选的,可以将所述多个实际切分得到的可播放媒体文件片段组合成一个新的可播放媒体文件。所述组合是物理上的,就是把所有可播放媒体文件的片段组合成一个新的可播放媒体文件提供给用户;当然,也可以不进行组合,只建立一个播放列表,提供给各个媒体播放器,各个媒体播放器可以把按照这个播放列表连续播放多个文件,并把这多个文件当成一个文件来对待。
对于上述第二种实现方式,客户端从服务器端获取用户所需的可播放媒体文件链接及其相关联的外部时间码文件,进而完成分析、切分方案确定,下载得到所需的可播放媒体文件的片段或者片段组合。其中,客户端下载所需的切分信息应该包括:相关联的可播放媒体文件链接和下载起止点,由于外部时间码文件中仅仅包括需要的起止时间点,所以此时的客户端需要能够根据所述起止时间点确定在所述可播放媒体文件中对应的各数据包或字节的实际存储起止位置点,才能完成下载,相关技术实现之前已有描述,参考即可。
下面对图1所示的方法中的关联步骤101进行详述。
所述关联可以采用各种可行的方式实现,例如:通过与其他公司合作等方式在发布可播放媒体文件的时候就配套发布其相关联的外部时间码文件,从而能够获得较为精确的关联度;或者,专门针对已有的可播放媒体文件,制作相关联的外部时间码文件,也能够获得较精确的关联度。上述介绍了通过人工建立关联数据库的方法,也可以通过计算机自动实现关联的过程,例如:通过文本聚类的方式将可播放媒体文件和外部时间码文件进行关联。
通常情况下,从互联网中获取的可播放媒体文件,例如mp3、windowsmedia文件中都在文件自身固定位置存储有与该文件相关的文字属性信息,如作者、作曲、演唱者、专辑、歌名、网址等。上述文字属性信息是根据可播放媒体文件的相关网页上下文和/或链接信息获取;优选的,也可以直接从可播放媒体文件中提取,因为可播放媒体文件中的文字属性信息一般较之相关网页上下文或链接信息更为准确。文本聚类是指,比较数据库中的文件信息,将文字属性信息相同或者相似的可播放媒体文件标记为同一类。
而对于外部时间码文件而言,由于其自身就是文本格式或者存储有各种文本信息,所以直接从文件中读取一定的文本属性信息,例如,歌名、作者、专辑名等,将文字属性信息相同或者相似的外部时间码文件标记为同一类。同时对外部时间码文件和可播放媒体文件进行文本聚类,从而将二者关联起来。
在实际中,通过上述关联方法获得初步聚合的外部时间码文件有多个,可播放媒体文件与外部时间码文件之间的关联关系相对紊乱,从而影响获得的切分方案的准确性。在这种情况下,上述关联方法还可以进一步包括:在所述同一类的外部时间码文件中筛选出一个典型的外部时间码文件作为后续分析的依据。
具体为,对多个外部时间码文件放在一起进行分析,判别属于同一类外部时间码文件中正确的文字属性信息,即从中挑选出一个作为切分样本或者根据判别出的正确的文字属性信息组合出一个新的外部时间码文件作为切分样本。
本发明可以根据多种方式或规则认定文字属性信息是否正确。例如,少数服从多数原则,认为在同一类的外部时间码文件中,出现频率高,即所占比例较高的文字属性信息为正确信息。或者,对每一个外部时间码文件的文字属性信息进行分析,如果这个文字属性信息完全命中标准库(一个由人工干预形成的信息库,认为是非常准确的),即赋予它较高的权重,当权重值高于一定阈值时,就判别为正确信息。而对于单个外部时间码文件而言,如果拥有的正确信息最多,则可以作为切分样本。当然,本发明并不需要对切分样本的选取作任何的限制,上述仅仅为几种优选方式。
因为上述方法中仅对可播放媒体文件进行了文本聚类,同一类中也会存在较多细节不同的可播放媒体文件,为了使所有相关联的可播放媒体文件都可以按照所述典型的外部时间码文件的起止时间点来切分,本发明还可以在基于上述关联方法的基础上,设置一定规则对可播放媒体文件进行过滤,所述过滤规则可以按照各种搜索需求来设置,本发明对此不需要进行限制。或者,本发明还可以对用于搜索的可播放媒体文件来源进行设置,例如,仅从特定网站选取或者官方提供等,从而可以保证可播放媒体文件较高的一致性。
下面对图1所示的方法中的针对外部时间码文件的分析过程进行详述。
由于外部时间码文件中会有音乐歌词,视频字幕等等文本信息,可以认为是对该段可播放媒体文件的提示信息,通过分析这些信息我们就可以知悉当前的音频或者视频中的大致内容是什么,从而可以实现对相关联的可播放媒体文件的片段搜索。在本发明中,对外部时间码文件进行分析的分析方法可以包括文本分析、语义分析、语言模型分析或分词分析。
其中,文本分析是对外部时间码文件的文本信息进行分析,得到文本信息的重点要素。应用于实际中时,例如,当需要搜索音频文件的高潮片段时,其分析过程包括以下步骤:对所述外部时间码文件通过文本分析确定包括重复次数在内的识别参数;所述识别参数还可以包括重复段落、重复段的时间等,可以根据需求设置;根据所述识别参数对所述外部时间码文件的各个片段赋予相应的权重值,根据各个片段的权重值对每个高潮片段进行排序,例如,根据重复次数和重复段落的时间长短进行评分,然后进行排序,得分最高的片段为优选的高潮片段。本发明对于一个音频文件中有不同的两个或两个以上的高潮片段也是支持的。当然,根据这样的文本分析还可以根据需求分析出各种可播放媒体文件的要素片段,例如,通过中断部分,分析出一个音频或视频讲座的不同章节等。
语义分析是指通过分析外部时间码文件的文本结构中实词与实词之间的语义关系,判断某一段或几段文本表达的大致意思,分别赋予该文本语义关键词,该语义关键词可以包括这段文本中出现的文字,也可以是跟这段文本语义最为相近的文字,所述关键词对应用户的搜索关键词。
分词分析是指通过对外部时间码文件的文本信息进行分词,分别赋予相应的关键词,所述关键词对应用户的搜索关键词,还可以结合语义分析共同形成关联关键词。
语言模型分析类似于语义分析,在此不再赘述。
总之通过上述分析过程,可以确定多个所需的外部时间码文件的片段,并通过上述分析过程也可以为每个片段赋予相应的关键词。对于确定片段和赋予关键词的过程,可以通过多重的分析步骤实现。当然,对于客户端完成分析过程而言,是不需要赋予相应的关键词的。
通过上述分析过程,针对一个外部时间码文件也可以确定多个所需的片段,即针对每个相关联的可播放媒体文件可以存在多个切分方案,例如:提供某个可播放媒体文件中关于某种商品的片段组合,或者提供某个可播放媒体文件中关于某个人的片段组合;针对每个片段也可以赋予多个或者多重的关键词,片段类别信息也可以认为是关键词的一种,即针对每个片段可以存在多种检索条件,例如:苹果、数码。所述类别可以根据各种不同的需要来设置,例如,音乐高潮段落、农业、工业、人物等。
所述分析过程还可以包括根据需要对外部时间码文件的重复分析,以及对关键词等检索标识的整理等等,此处的分析应该作较宽泛的解释。
参照图2,是本发明采用图1所示搜索方法的实施例,一种搜索音频文件的高潮部分的流程图,在接收到用户的查询请求后,包括以下步骤:
步骤201,在歌词文件与互联网中的音频文件之间建立关联,本实施例通过以下方法在服务器端建立所述关联,包括以下子步骤:
第一子步骤,获取所述歌词文件中的歌曲和歌手名称,根据所述歌曲和歌手名称对所述歌词文件进行文本聚类;
例如:获取歌词文件中的歌曲和歌手名称为丝路和梁静茹,经过文本聚类获得某个典型结果如下:
丝路|梁静茹|:::丝路-通往爱的路途|http://ww.jpwy.net/gc/down.php?id=2317&ps=8&ti=%CB%BF%C2%B7&key=8c2cc747756b0ac7486c52bdf7640a30|
[ti:丝路]
[ar:梁静茹]
[by:孙旭]
[offset:500]
[00:03.75]梁静茹--丝路
[00:08.94]编辑:孙旭(www.jpwy.net)
[00:12.00]
[00:17.20]如果流浪是你的天赋
[00:22.50]那么你一定是我最美的追逐
… … …
[00:56.80][02:37.50]我将眼泪流成天山上面的湖
[01:00.50][02:41.00]让你疲倦时能够扎营停驻
… … …
[01:42.00][03:22.00][04:35.00]谁是谁的旅途
[01:45.00][03:25.30]我只要你记住
… … …
[04:22.00]爱上了你之后我从来不哭(no~oh~)
[04:31.20]我从来不在乎(我不在乎)
[04:38.00]我只要
[04:48.80]你记住
第二子步骤,获取互联网音频文件中的歌曲和歌手名称(文本属性信息),根据所述歌曲和歌手名称对所述音频文件进行文本聚类;
第三子步骤2013,将同一类的歌词文件和音频文件进行关联。在本实施例中,即可以通过歌名歌手专辑等文本信息把音频文件和它对应的歌词文件联系起来。
例如,获取音频文件中的歌曲和歌手名称分别为丝路和梁静茹,经过文本聚类获得的该类中的某个音频文件结果为:
丝路|梁静茹|丝路|http://yy.9yy.com:8080/Song/ahn/q/qq/9/7.wma
在现实应用中,客户端搜索到的歌词文件往往质量较高,可以随机选取一个歌词文件作为典型的歌词文件。而本实施例中也可以,优选的,通过一些分析策略来筛选出一个典型的歌词文件,例如,通过判断各个来源的歌词的重复度,如果有一定阈值以上的百分比的歌词重复,就认为其中一个可以作为典型歌词文件;或者可以通过网页上的网友对各个歌词的评价来累计积分,得分高的成为典型歌词文件;或者,对比歌曲长度和歌词时间点,找到最匹配的成为典型歌词文件。
例如,经过上面的文本聚类,可以将聚类关联得到的歌词文件与音频文件存储至数据库中,并可以赋予相应组号或者关联标识号。
此时,接受用户的查询请求,就可以返回搜索结果信息,例如图3所示。用户在该界面中点击歌词的图标,就能够显示出歌词,如图4所示。
步骤202,对所述典型歌词文件进行分析,确定其中的高潮片段,并根据所述确定的片段获取相关联音频文件的起止切分时间点。
包括以下子步骤:
第一子步骤,对所提取的歌词文件通过文本分析确定识别参数,例如,重复段落、重复次数和重复段的时间;
第二子步骤,根据所述识别参数对歌词文件的各个片段赋予相应的权重值,所述权重值的高低决定了该片段是否为高潮片段的优先程度。一首歌曲中可以包括不同的多个高潮片段。
第三子步骤,根据所述确定的歌词文件的高潮片段,得到相关联的音频文件的高潮时间点。
步骤202可以在服务器端完成,也可以在客户端完成,图1的相关描述已经详细说明了,此处不再赘述。当然,服务器也可以根据检索频率(例如,对于检索TOP100的音频文件)直接对其相关联的音频文件进行实际切分,然后返回客户端其在服务器数据库中的存储链接即可。
步骤203,当用户点击选择铃声diy的图标时,服务器会自动提取数据库中的该音频文件的链接和对应的歌词文件,以及分析得到的高潮时间点。在服务器中对于歌曲是有标志的,当用户点击铃声diy时,就能够知道用户请求的那首歌曲,并把歌曲的歌词内容取到。根据歌词内容,经过时间片段的分词就可以得到高潮片段的时间点,一并传回客户端。
步骤204,客户端完成下载或者在先播放。客户端接收到服务器上的信息后,就可以自动在播放器上标注出高潮片段的位置,并到指定的url上分段下载歌曲。所述播放器为现有技术中各种流媒体播放器。当然,用户也可以通过播放器拖拽试听,确定其他时间段作为自己需要的片段进行下载。
步骤205,客户端存储所述相关联的音频文件的片段或者片段组合,并封装为新的可播放媒体文件,封装后的格式可以为原媒体文件的格式,也可以经过编码解码转换为其他媒体文件格式。
例如,对于现行微软的ASF系列的流媒体文件(包括wma-音频,wmv-视频),我们可以通过预读原文件的头(head)信息,然后再跳转到指定的时间点,获取文件点信息,进行存储,存储的时候需要封装一下原来的头信息,也就是说把截取的文件下载到本地后给此文件封装一个头信息后才算完成下载。其他的流媒体可以依此类推,可以在蜘蛛(spider)搜索的时候判断这个文件的格式信息,通过预读head信息或者分析文件扩展名来分析,然后按照相应格式的封装策略去封装切分的文件即可。
本发明优选的还可以将多个下载的音频文件高潮部分整合成一个完整的音频文件提供给用户,也可以不进行整合,只是建立一个播放列表,提供给各个播放器,各个播放器可以按照这个播放列表连续播放多个文件。
参照图5a-5b,是本发明针对可播放媒体文件的搜索系统的实施例的框架图,包括以下单元:
关联单元501,用于在外部时间码文件与互联网中的可播放媒体文件之间建立关联;
切分方案确定单元502,用于对所述外部时间码文件进行分析,根据分析结果确定所需的外部时间码文件的片段;以及根据所述确定的外部时间码文件的片段,获得与其相关联的可播放媒体文件的切分方案;
信息获取单元503,用于根据所述切分方案获取所述相关联的可播放媒体文件的片段或者片段组合。
参照图5a,为实施例1和实施例2的系统框架图,
实施例1,所述关联单元504和切分方案确定单元502位于服务器端,所述切分方案包括相关联的可播放媒体文件链接和下载起止点。所述下载单元503位于客户端中,所述客户端连接服务器端,获取用户所需的可播放媒体文件链接和下载起止点。所述起止点为该外部时间码文件片段在相关联的可播放媒体文件中对应的起止时间点;或者,所述起止点为该外部时间码文件片段在相关联的可播放媒体文件中对应的各数据包或者字节的起止位置点。
实施例2,所述关联单元501和切分方案确定单元502位于服务器端;所述切分方案包括相关联的可播放媒体文件片段或者片段组合的链接,所述链接是根据所述外部时间码的片段对相关联的可播放媒体文件进行实际切分后另存而得到的;所述下载单元503位于客户端中,所述客户端连接服务器端,客户端获取用户所需片段或者片段组合的链接,进而完成下载。
参照图5b,为实施例3的系统框架图,
实施例3,所述关联单元501位于服务器端,所述切分方案确定单元502和下载单元503位于客户端中,所述客户端连接服务器端,获取用户所需的可播放媒体文件链接及其相关联的外部时间码文件,进而完成分析、切分方案确定,下载得到所需的可播放媒体文件的片段或者片段组合。
上述三个实施例中,所述起止位置点的确定方式可以为:根据所述起止时间点、可播放媒体文件的压缩格式计算在所述可播放媒体文件中对应的各数据包或字节的实际存储起止位置点;为了准确起见,可以结合一定的文件头信息共同计算得到所述起止位置点。所述起止位置点的确定方式也可以为:调用相应的播放程序,先读取相关联的可播放媒体文件的文件头信息和部分媒体信息,然后根据所述起止时间点进行跳转,得到字节偏移量信息,从而确定在该可播放媒体文件中对应的各数据包或字节的实际存储起止位置点。所述相应的播放程序为各种能够播放该媒体文件的程序,例如,该媒体文件格式对应的播放器、播放插件或者能够播放的其他应用程序等等。
上述三个实施例中,所述关联单元可以采用文本聚类的方式将外部时间码文件和可播放媒体文件进行关联。例如,所述关联单元具体可以包括:
外部时间码文件文本聚类模块,用于获取所述外部时间码文件的文字属性信息,根据所述文字属性信息对外部时间码文件进行文本聚类;
可播放媒体文件文本聚类模块,用于获取所述可播放媒体文件的文字属性信息,根据所述文字属性信息对可播放媒体文件进行文本聚类;
关联模块,用于将同一类的外部时间码文件和可播放媒体文件进行关联。
优选的,所述关联单元还可以包括:外部时间码文件整理模块,用于在所述同一类的外部时间码文件中筛选出一个典型的外部时间码文件作为后续分析的依据。
当需要搜索的是音频文件的高潮片段时,所述切断方案确定单元可以包括以下模块用于针对外部时间码文件的分析:
文本分析模块,用于对所述外部时间码文件通过文本分析确定包括重复次数在内的识别参数;
权重赋予模块,用于根据所述识别参数对所述外部时间码文件的各个片段赋予相应的权重值,所述权重值的高低决定了该片段是否为高潮片段的优先程度。
参照图6,是本发明一种针对可播放媒体文件的搜索数据库的建立方法步骤图。服务器端搜索数据库的建立是完成本发明的重要步骤,针对前述切分方案确定步骤在服务器端完成的实施例而言,需要以下步骤实现搜索数据库的建立:
关联步骤601,在外部时间码文件与互联网中的可播放媒体文件之间建立关联;
切分方案确定步骤602,对所述外部时间码文件进行分析,根据分析结果确定所需的外部时间码文件的片段;根据所述确定的外部时间码文件的片段,获得对其相关联的可播放媒体文件的切分方案;
存储步骤603,将所述切分方案存储至搜索数据库;所述切分方案设置有检索标识。通过所述检索标识,链接该搜索数据库就可以检索到所需的切分方案,所述检索标识可以为关键词、类别等。
其中,所述切分方案可以为虚拟切分,包括相关联的可播放媒体文件链接和下载起止点。所述切分方案也可以为实际切分,包括根据所述外部时间码的片段对相关联的可播放媒体文件进行实际切分得到的可播放媒体文件片段或者片段组合的链接。
参照图7,是本发明一种针对可播放媒体文件的搜索服务器的结构框图,包括:
第一存储器701,用于存储外部时间码文件与互联网中的可播放媒体文件的关联信息、以及针对可播放媒体文件的第一切分方案,所述第一切分方案包括相关联的可播放媒体文件链接以及下载起止点,所述下载起止点由外部时间码文件得到;
查询器702,用于根据用户的查询条件检索相应的切分方案。
接口单元703,用于接收用户的查询请求以及返回相应的切分方案。
图7所示的搜索服务器完成了针对可播放媒体文件的搜索过程中的关联步骤和切分方案确定步骤,具体的信息获取步骤仍然需要通过客户端完成。图7所示搜索服务器中存储的切分方案等可检索信息可以通过图6所示建立搜索数据库的方法而获得,当然也可以通过其他方式获得,总之,图7所示的搜索服务器中只要求存储了上述可检索信息即可,并不需要限定切分方案等可检索信息的来源方式。
图7所示的搜索服务器和客户端的连接关系以及单元组成,针对所述起止点的不同,可以存在以下四种情况:
(1)当所述起止点为该外部时间码文件片段在相关联的可播放媒体文件中对应的各数据包或字节的起止位置点时,客户端可以直接连接所述服务器完成信息获取。
(2)当所述起止点为该外部时间码文件片段在相关联的可播放媒体文件中对应的起止时间点,所述搜索服务器还需要包括起止位置点计算单元,用于根据所述起止时间点、可播放媒体文件的压缩格式计算在所述可播放媒体文件中对应的各数据包或字节的实际存储起止位置点;客户端可以直接连接所述服务器完成信息获取。优选的,起止位置点计算单元还可以首先获取所需的可播放媒体文件的文件头信息,再结合其压缩格式信息计算得到实际存储起止位置点,由于文件头信息数据量很小但是可以提供更多更详细的信息,故可以提高计算速度和精度。
(3)当所述起止点为该外部时间码文件片段在相关联的可播放媒体文件中对应的起止时间点,所述搜索服务器还包括起止位置点确定单元,用于调用相应的播放程序,先读取相关联的可播放媒体文件的文件头信息和部分媒体信息,然后根据所述起止时间点进行跳转,得到字节偏移量信息,从而确定在该可播放媒体文件中对应的各数据包或字节的实际存储起止位置点;客户端可以直接连接所述服务器完成信息获取。
(4)当所述起止点为该外部时间码文件片段在相关联的可播放媒体文件中对应的起止时间点,所述搜索服务器向客户端提供起止时间点信息,由客户端完成起止位置点的转换,然后再根据得到的起止位置点完成信息获取。前三种情况下,采用现有信息获取客户端即可完成,第四种情况下,则需要客户端进行一些改进,包括用于完成起止位置点的转换的组件。
为了满足一些特殊检索需求,图7所示的搜索服务器,还可以包括:第二存储器704,用于存储第二切分方案,所述第二切分方案是针对搜索服务器实际切分过程的,包括相关联的可播放媒体文件片段或者片段组合的链接,所述链接是根据所述外部时间码的片段对相关联的可播放媒体文件进行实际切分后另存而得到的。搜索服务器中存储的第一切分方案和第二切分方案,针对不同的音频文件可以采用不同的切分方案,例如,对于片段检索TOP100的音频文件可以采用实际切分的方式,而对于其他音频文件,则可以采用虚拟切分,从而可以更好的满足用户的检索需求,提高检索效率。
由于一般情况下,服务器的计算性能都优于用户端计算机的计算性能,故,图7所示的搜索服务器还可以包括下载单元705,根据用户的查询请求,首先将所需数据下载到服务器,在传送至客户端;上述过程尤其适用于返回数据为多个片段时的情况。此时,服务器可以将得到的多个片段组合为一个文件,然后传送至客户端;也可以产生一个播放列表文件,随得到的多个片段一同传送至客户端,播放列表方式尤其适用于用户在线播放的情况,用户就会认为该次链接结果就是一个文件,可以提高用户的使用体验。
参照图8,是本发明一种针对可播放媒体文件的信息获取客户端的结构框图,包括:
切分方案获取单元801,用于接收针对可播放媒体文件的切分方案,所述切分方案包括相关联的可播放媒体文件链接以及下载起止点,所述起止点为该外部时间码文件片段在相关联的可播放媒体文件中对应的起止时间点;
起止位置点确定单元802,用于根据所述起止时间点确定在所述可播放媒体文件中对应的各数据包或字节的实际存储起止位置点;
信息获取单元803,用于完成信息获取。所述信息获取可以为下载至本地重复应用或者在线播放。
其中,所述起止位置点的确定方式可以为:根据所述起止时间点、可播放媒体文件的压缩格式计算在所述可播放媒体文件中对应的各数据包或字节的实际存储起止位置点。优选的,为了准确起见,可以结合一定的文件头信息共同计算得到所述起止位置点。
所述起止位置点的确定方式也可以为:调用相应的播放程序,先读取相关联的可播放媒体文件的文件头信息和部分媒体信息,然后根据所述起止时间点进行跳转,得到字节偏移量信息,从而确定在该可播放媒体文件中对应的各数据包或字节的实际存储起止位置点。
采用图8所示的客户端完成可播放媒体文件的片段信息获取,对应的搜索服务器只要能够返回所需可播放媒体文件中对应的起止时间点信息的切分方案即可,图8所示的客户端可以通过起止位置点确定单元确定所需的起止位置点,从而完成信息获取。
当搜索服务器仅仅只能提供所需的音频文件和外部时间码文件的关联信息时,图8所示的客户端可以自动或者手动的对外部时间码文件进行分析,得到所需的片段,进而获得所需的切分方案。如果图8所示的客户端需要自动完成对外部时间码文件的分析,则还需要包括:切分方案确定单元804,用于对接收的外部时间码文件进行分析,根据分析结果确定所需的外部时间码文件的片段;以及根据所述确定的外部时间码文件的片段,获得针对其相关联的可播放媒体文件的切分方案。
例如,当需要搜索音频文件的高潮片段时,所述切分方案确定单元具体包括:文本分析模块,用于对所述外部时间码文件通过文本分析确定包括重复次数在内的识别参数;权重赋予模块,用于根据所述识别参数对所述外部时间码文件的各个片段赋予相应的权重值,所述权重值的高低决定了该片段是否为高潮片段的优先程度;切分方案确定模块,用于根据所述确定的外部时间码文件的片段,获得针对其相关联的可播放媒体文件的切分方案。根据具体分析需求的不同,所述切分方案确定单元可以具体包括不同的子模块。
为了重复利用所获取的媒体片段资源,则图8所示的信息获取客户端,还包括:封装器805,将下载的可播放媒体文件片段,根据原文件的格式封装为新的可播放媒体文件。
为了避免播放或者存放多个媒体片段信息的麻烦,图8所示的信息获取客户端,还包括:整合器806,用于整合多个下载的可播放媒体文件片段。至于如何整合多个片段资源,以及不同媒体格式之间的编码解码转换过程是本领域技术人员熟知的,在此不详述。
同理,为了简单起见,所述信息获取客户端,也可以包括:播放列表生成单元807,用于建立播放列表,相应的播放器可以依据该播放列表连续播放多个可播放媒体文件的片段。即信息获取客户端完成建立播放列表这样的虚拟组合即可,而不需要完成整合器806所实现的实际组合。
图8所示的信息获取客户端可以采用现有的断点续传的下载技术,也可以采用点对点(P2P)的方式获取,本发明并不需要对具体的下载过程加以限制。
上述关于图5-图8的相关描述中未详尽之处,可以参见本说明书前述图1-图2的相关部分。
以上对本发明所提供的一种针对互联网中可播放媒体文件的搜索方法和系统,一种针对可播放媒体文件的搜索数据库的建立方法,以及针对可播放媒体文件的搜索服务器和信息获取客户端,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (34)
1、一种针对可播放媒体文件的搜索方法,其特征在于,包括以下步骤:
关联步骤,在外部时间码文件与互联网中的可播放媒体文件之间建立关联;所述外部时间码文件为一种对应可播放媒体文件的记录有时间码和相应文本信息的文件;所述时间码是针对可播放媒体文件中一节/段可播放媒体信息的时间编码;
切分方案确定步骤,对所述外部时间码文件进行分析,确定所需的外部时间码文件的片段;根据所述确定片段的起止时间点,获得与其相关联的可播放媒体文件的切分方案;
信息获取步骤,根据所述切分方案获取所述相关联的可播放媒体文件的片段或者片段组合。
2、根据权利要求1所述的方法,其特征在于,
所述关联步骤和切分方案确定步骤均在服务器端完成,所述切分方案包括相关联的可播放媒体文件链接和信息获取起止点;
客户端获取用户所需的可播放媒体文件链接和信息获取起止点,进而完成信息获取。
3、根据权利要求2所述的方法,其特征在于,
所述起止点为该外部时间码文件片段在相关联的可播放媒体文件中对应的起止时间点;
或者,所述起止点为该外部时间码文件片段在相关联的可播放媒体文件中对应的各数据包或字节的起止位置点。
4、根据权利要求1所述的方法,其特征在于,
所述关联步骤和切分方案确定步骤均在服务器端完成,所述切分方案包括相关联的可播放媒体文件片段或者片段组合的链接,所述链接是根据所述外部时间码的片段对相关联的可播放媒体文件进行实际切分后另存而得到的;
客户端获取用户所需片段或者片段组合的链接,进而完成信息获取。
5、根据权利要求1所述的方法,其特征在于,
所述切分方案确定步骤以及信息获取步骤均在客户端完成;
并且,在切分方案确定步骤之前,还包括:客户端获取用户所需的可播放媒体文件链接及其相关联的外部时间码文件。
6、根据权利要求1所述的方法,其特征在于,所述关联步骤通过文本聚类的方式将可播放媒体文件和外部时间码文件进行关联。
7、根据权利要求6所述的方法,其特征在于,所述关联步骤还包括:
在所述同一类的外部时间码文件中筛选出一个典型的外部时间码文件作为后续分析的依据。
8、根据权利要求1所述的方法,其特征在于,所述分析方法为:针对外部时间码文件的文本分析、语义分析、语言模型分析或分词分析。
9、根据权利要求1所述的方法,其特征在于,当需要搜索音频文件的高潮片段时,所述分析过程采用以下步骤实现:
对所述外部时间码文件通过文本分析确定包括重复次数在内的识别参数;
根据所述识别参数对所述外部时间码文件的各个片段赋予相应的权重值,所述权重值的高低决定了该片段是否为高潮片段的优先程度。
10、根据权利要求1所述的方法,其特征在于,所述获取为本地下载或者在线播放。
11、一种针对可播放媒体文件的搜索系统,其特征在于,包括:
关联单元,用于在外部时间码文件与互联网中的可播放媒体文件之间建立关联;所述外部时间码文件为一种对应可播放媒体文件的记录有时间码和相应文本信息的文件;所述时间码是针对可播放媒体文件中一节/段可播放媒体信息的时间编码;
切分方案确定单元,用于对所述外部时间码文件进行分析,确定所需的外部时间码文件的片段;以及根据所述确定的外部时间码文件的片段,获得与其相关联的可播放媒体文件的切分方案;
信息获取单元,用于根据所述切分方案获取所述相关联的可播放媒体文件的片段或者片段组合。
12、根据权利要求11所述的系统,其特征在于,
所述关联单元和切分方案确定单元位于服务器端,所述切分方案包括相关联的可播放媒体文件链接和信息获取起止点;
所述信息获取单元位于客户端中,所述客户端连接服务器端,获取用户所需的可播放媒体文件链接和信息获取起止点。
13、根据权利要求12所述的系统,其特征在于,
所述起止点为该外部时间码文件片段在相关联的可播放媒体文件中对应的起止时间点;
或者,所述起止点为该外部时间码文件片段在相关联的可播放媒体文件中对应的各数据包或者字节的起止位置点。
14、根据权利要求11所述的系统,其特征在于,
所述关联单元和切分方案确定单元位于服务器端;所述切分方案包括相关联的可播放媒体文件片段或者片段组合的链接,所述链接是根据所述外部时间码的片段对相关联的可播放媒体文件进行实际切分后另存而得到的;
所述信息获取单元位于客户端中,所述客户端连接服务器端,客户端获取用户所需片段或者片段组合的链接,进而完成信息获取。
15、根据权利要求11所述的系统,其特征在于,
所述关联单元位于服务器端,所述切分方案确定单元和信息获取单元位于客户端中,所述客户端连接服务器端,获取用户所需的可播放媒体文件链接及其相关联的外部时间码文件。
16、根据权利要求11所述的系统,其特征在于,所述关联单元采用文本聚类的方式将外部时间码文件和可播放媒体文件进行关联。
17、根据权利要求16所述的系统,其特征在于,所述关联单元还包括:
外部时间码文件整理模块,用于在所述同一类的外部时间码文件中筛选出一个典型的外部时间码文件作为后续分析的依据。
18、一种针对可播放媒体文件的搜索数据库的建立方法,其特征在于,包括以下步骤:
关联步骤,在外部时间码文件与互联网中的可播放媒体文件之间建立关联;所述外部时间码文件为一种对应可播放媒体文件的记录有时间码和相应文本信息的文件;所述时间码是针对可播放媒体文件中一节/段可播放媒体信息的时间编码;
切分方案确定步骤,对所述外部时间码文件进行分析,确定所需的外部时间码文件的片段;根据所述确定的外部时间码文件的片段,获得对其相关联的可播放媒体文件的切分方案;
存储步骤,将所述切分方案存储至搜索数据库;所述切分方案设置有检索标识。
19、根据权利要求18所述的方法,其特征在于,所述切分方案包括相关联的可播放媒体文件链接和信息获取起止点。
20、根据权利要求18所述的方法,其特征在于,所述切分方案包括根据所述外部时间码的片段对相关联的可播放媒体文件进行实际切分得到的可播放媒体文件片段或者片段组合的链接。
21、一种针对可播放媒体文件的搜索服务器,其特征在于,包括:
第一存储器,用于存储外部时间码文件与互联网中的可播放媒体文件的关联信息、以及针对可播放媒体文件的第一切分方案,所述第一切分方案包括相关联的可播放媒体文件链接以及信息获取起止点,所述起止点由外部时间码文件分析获得;所述外部时间码文件为一种对应可播放媒体文件的记录有时间码和相应文本信息的文件;所述时间码是针对可播放媒体文件中一节/段可播放媒体信息的时间编码;
查询器,用于根据用户的查询条件检索相应的切分方案;
接口单元,用于接收用户的查询请求以及返回相应的切分方案。
22、根据权利要求21所述的搜索服务器,其特征在于,所述起止点为该外部时间码文件片段在相关联的可播放媒体文件中对应的各数据包或字节的起止位置点。
23、根据权利要求21所述的搜索服务器,其特征在于,
所述起止点为该外部时间码文件片段在相关联的可播放媒体文件中对应的起止时间点;
所述搜索服务器还包括起止位置点计算单元,用于根据所述起止时间点、可播放媒体文件的压缩格式计算在所述可播放媒体文件中对应的各数据包或字节的实际存储起止位置点。
24、根据权利要求21所述的搜索服务器,其特征在于,
所述起止点为该外部时间码文件片段在相关联的可播放媒体文件中对应的起止时间点;
所述搜索服务器还包括起止位置点确定单元,用于调用相应的播放程序,先读取相关联的可播放媒体文件的文件头信息和部分媒体信息,然后根据所述起止时间点进行跳转,得到字节偏移量信息,从而确定在该可播放媒体文件中对应的各数据包或字节的实际存储起止位置点。
25、根据权利要求21所述的搜索服务器,其特征在于,还包括:
第二存储器,用于存储第二切分方案,所述第二切分方案包括相关联的可播放媒体文件片段或者片段组合的链接,所述链接是根据所述外部时间码的片段对相关联的可播放媒体文件进行实际切分后另存而得到的。
26、根据权利要求21所述的搜索服务器,其特征在于,还包括:
下载单元,用于根据用户的查询请求获取所需的片段,并产生相应的播放列表,一同返回客户端;或者将所述片段组合后返回客户端。
27、一种针对可播放媒体文件的信息获取客户端,其特征在于,包括:
切分方案获取单元,用于接收针对可播放媒体文件的切分方案,所述切分方案包括相关联的可播放媒体文件链接以及信息获取起止点,所述起止点为该外部时间码文件片段在相关联的可播放媒体文件中对应的起止时间点;所述外部时间码文件为一种对应可播放媒体文件的记录有时间码和相应文本信息的文件;所述时间码是针对可播放媒体文件中一节/段可播放媒体信息的时间编码;
起止位置点确定单元,用于根据所述起止时间点确定在所述可播放媒体文件中对应的各数据包或字节的实际存储起止位置点;
信息获取单元,用于完成信息获取。
28、根据权利要求27所述的信息获取客户端,其特征在于,
所述起止位置点确定单元通过以下方式确定实际存储起止位置点:根据所述起止时间点、可播放媒体文件的压缩格式计算在所述可播放媒体文件中对应的各数据包或字节的实际存储起止位置点。
29、根据权利要求27所述的信息获取客户端,其特征在于,
所述起止位置点确定单元通过以下方式确定实际存储起止位置点:调用相应的播放程序,先读取相关联的可播放媒体文件的文件头信息和部分媒体信息,然后根据所述起止时间点进行跳转,得到字节偏移量信息,从而确定在该可播放媒体文件中对应的各数据包或字节的实际存储起止位置点。
30、根据权利要求27所述的信息获取客户端,其特征在于,还包括:
整合器,用于整合多个本地下载的可播放媒体文件片段。
31、根据权利要求27或30所述的信息获取客户端,其特征在于,还包括:
封装器,将本地下载的可播放媒体文件片段,根据所需压缩格式封装为新的可播放媒体文件。
32、根据权利要求27所述的信息获取客户端,其特征在于,还包括:
切分方案确定单元,用于对接收的外部时间码文件进行分析,确定所需的外部时间码文件的片段;以及根据所述确定的外部时间码文件的片段,获得针对其相关联的可播放媒体文件的切分方案。
33、根据权利要求32所述的信息获取客户端,其特征在于,当需要搜索音频文件的高潮片段时,所述切分方案确定单元具体包括:
文本分析模块,用于对所述外部时间码文件通过文本分析确定包括重复次数在内的识别参数;
权重赋予模块,用于根据所述识别参数对所述外部时间码文件的各个片段赋予相应的权重值,所述权重值的高低决定了该片段是否为高潮片段的优先程度;
切分方案确定模块,用于根据所述确定的外部时间码文件的片段,获得针对其相关联的可播放媒体文件的切分方案。
34、根据权利要求27所述的信息获取客户端,其特征在于,还包括:
播放列表生成单元,用于建立播放列表,相应的播放器可以依据该播放列表连续播放多个可播放媒体文件的片段。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNB2006101507080A CN100501738C (zh) | 2006-10-24 | 2006-10-24 | 一种针对可播放媒体文件的搜索方法、系统及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNB2006101507080A CN100501738C (zh) | 2006-10-24 | 2006-10-24 | 一种针对可播放媒体文件的搜索方法、系统及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1949227A CN1949227A (zh) | 2007-04-18 |
CN100501738C true CN100501738C (zh) | 2009-06-17 |
Family
ID=38018743
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNB2006101507080A Active CN100501738C (zh) | 2006-10-24 | 2006-10-24 | 一种针对可播放媒体文件的搜索方法、系统及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN100501738C (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101895736B (zh) * | 2010-07-07 | 2013-03-13 | 浙江宇视科技有限公司 | 媒体流数据处理方法及其装置 |
CN102882900B (zh) * | 2011-07-11 | 2016-06-22 | 阿里巴巴集团控股有限公司 | 大规模服务器集群应用部署方法和大规模服务器集群 |
CN102377914A (zh) * | 2011-09-22 | 2012-03-14 | 宇龙计算机通信科技(深圳)有限公司 | 终端和多媒体文件管理方法 |
CN105302839B (zh) * | 2014-07-31 | 2020-11-03 | 腾讯科技(深圳)有限公司 | 文件过滤的方法和系统 |
CN104735545A (zh) * | 2015-03-31 | 2015-06-24 | 努比亚技术有限公司 | 音视频文件播放方法和系统 |
CN105843393A (zh) * | 2016-03-30 | 2016-08-10 | 苏州合欣美电子科技有限公司 | 一种自适应字幕调整的影音播放器 |
CN108228658B (zh) * | 2016-12-22 | 2022-06-03 | 阿里巴巴集团控股有限公司 | 一种自动生成配音文字的方法、装置以及电子设备 |
CN108694203B (zh) * | 2017-04-11 | 2021-08-13 | 北京雷石天地电子技术有限公司 | 一种连续播放歌曲部分内容的方法和装置 |
CN108513140B (zh) * | 2018-03-05 | 2020-10-16 | 北京明略昭辉科技有限公司 | 一种用于音频中筛选重复广告片段并生成毛音频的方法 |
-
2006
- 2006-10-24 CN CNB2006101507080A patent/CN100501738C/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN1949227A (zh) | 2007-04-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN100501738C (zh) | 一种针对可播放媒体文件的搜索方法、系统及装置 | |
US8577889B2 (en) | Searching for transient streaming multimedia resources | |
CN101271457B (zh) | 一种基于旋律的音乐检索方法及装置 | |
US9372926B2 (en) | Intelligent video summaries in information access | |
US8176029B2 (en) | Composite display method and system for search engine of same resource information based on degree of attention | |
US8965916B2 (en) | Method and apparatus for providing media content | |
US20130294746A1 (en) | System and method of generating multimedia content | |
US20080033986A1 (en) | Search engine for audio data | |
CN101719167B (zh) | 一种可互动的影视搜索方法 | |
US20090043739A1 (en) | Method of displaying customized data and browser agent | |
US20090006962A1 (en) | Audio thumbnail | |
KR100676863B1 (ko) | 음악 검색 서비스 제공 시스템 및 방법 | |
CN102682082B (zh) | 基于内容结构特征的网络Flash搜索系统及搜索方法 | |
CN101566995A (zh) | 一种互联网信息整合发布的方法和系统 | |
CN104991943A (zh) | 音乐搜索方法及装置 | |
CN104423621A (zh) | 拼音字符串处理方法和装置 | |
JP5491372B2 (ja) | 情報検索システム、情報検索方法、情報検索プログラム | |
CN103678362A (zh) | 搜索方法及系统 | |
AU2020215270A1 (en) | Method for recommending video content | |
CN104503988A (zh) | 搜索方法及装置 | |
KR102252522B1 (ko) | 내용 기반 동영상 목차 자동생성 방법 및 시스템 | |
CN102253987B (zh) | 网络mp3音质排序方法及系统 | |
CN103425766A (zh) | 浏览同步方法和装置 | |
JP2011145813A (ja) | 検索支援装置及び検索支援方法 | |
KR101696026B1 (ko) | 오픈 응용프로그램 인터페이스를 이용한 디자인트랜드정보제공방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |