CN101477527B - 一种检索多媒体资源的方法及装置 - Google Patents
一种检索多媒体资源的方法及装置 Download PDFInfo
- Publication number
- CN101477527B CN101477527B CN200810188199XA CN200810188199A CN101477527B CN 101477527 B CN101477527 B CN 101477527B CN 200810188199X A CN200810188199X A CN 200810188199XA CN 200810188199 A CN200810188199 A CN 200810188199A CN 101477527 B CN101477527 B CN 101477527B
- Authority
- CN
- China
- Prior art keywords
- cid
- multimedia resource
- index field
- user
- retrieval
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明公开了一种检索视频文件的方法,该方法为:接收用户输入的用于检索多媒体资源的索引字段;根据所述索引字段获得对应的多媒体资源的内容签名CID,该CID为所述多媒体资源经哈希运算后得到的哈希值;确定具有所述CID的多媒体资源归属的各网页,并将各网页的链接地址进行索引对应,以获得检索结果。由于包含相同内容的多媒体资源具有相同的CID,因此,检索服务器可以根据索引字段对应的CID准确地获取符合要求的多媒体资源,并且无论多媒体资源被上传者设置了何种属性信息,都不会影响最终的检索结果,这样,便在很大程度上提高了检索结果的精准性,从而有效地提升了用户体验。本发明同时公开了一种检索服务器。
Description
技术领域
本发明涉及通信领域以及计算机领域,特别涉及一种检索多媒体资源的方法、装置及系统。
背景技术
随着互联网技术的飞速发展,网络中多媒体资源的数目与日俱增,越来越多的网站开始向互联网用户提供各种多媒体资源。目前,用户使用搜索引擎检索自身需要的多媒体资源时,通常使用索引字段(即检索关键字)来精准地提取出相应的多媒体信息;而现有的搜索引擎在根据索引字段检索多媒体资源时,先使用工具网页蜘蛛(SPIDER)对互联网的网页进行抓取,再将网页特征信息(如,网页内容描述信息、网页标题等等)与索引字段进行关键词匹配,接着,将匹配后的各网页进行索引对应并排序,最后,将检索结果呈现给用户。
现有技术下,用户输入用于搜索多媒体资源的索引字段后,搜索引擎根据该索引字段进行关键字匹配时所采用的网页特征信息,通常是网页内包含的多媒体资源的属性信息,例如,多媒体资源的名称、标签等等,而多媒体资源的属性信息一般由其上传者预先设置,因此,不同网页内包含的内容相同的多媒体资源可能具有不同的属性信息,显然,这种情况极易导致检索结果的不精准。
例如:不同的上传者将包含电影《变形金刚》的视频文件分别上传至多个网站后,分别为其设置了不同的文件名称,如,《西域金刚》、《汽车人》、《擎天柱》等等,而搜索引擎接收用户输入的索引字段为“变形金刚”,那么,搜索引擎将视频文件的文件名称作为网页特征信息,与用户输入的索引字段进行关键字匹配来检索上述电影,便会因为文件名称的不准确而无法获得最精准的检索结果,从而降低用户体验。
此外,现有技术下,搜索引擎根据用户输入的索引字段无法得知用户检索 的多媒体资源的类型,因此检索结果内往往包含过多的条目,使用户需花费大量的时间从中确定自身所需的多媒体资源,从而进一步降低了用户体验。
发明内容
本发明实施例提供一种检索多媒体资源的方法及装置,用以在进行多媒体资源检索时,提高检索结果的精准度。
本发明实施例提供的具体技术方案如下:
一种检索多媒体资源的方法,包括:
接收用户输入的用于检索多媒体资源的索引字段;
根据所述索引字段获得对应的多媒体资源的内容签名CID,该CID为所述多媒体资源经哈希运算后得到的哈希值,所述内容签名CID还对应子CID,所述子CID为将所述多媒体资源转码为其他格式后,经哈希运算得到的哈希值;
确定具有所述CID以及所述子CID的多媒体资源归属的各网页,并将各网页的链接地址进行索引对应,以获得检索结果。
一种用于检索多媒体资源的服务器,包括:
存储单元,用于保存多媒体资源的内容签名CID,该CID为所述多媒体资源经哈希运算后得到的哈希值,并保存所述CID对应的子CID,所述子CID为将所述多媒体资源转码为其他格式后,经哈希运算得到的哈希值;
用户接口单元,用于接收用户输入的用于检索多媒体资源的索引字段;
第一处理单元,用于根据所述索引字段获得对应的多媒体资源的CID以及子CID;
第二处理单元,用于确定具有所述CID以及所述子CID的多媒体资源归属的各网页,并将各网页的链接地址进行索引对应,以获得检索结果。
本发明实施例中,检索服务器接收用户输入的用于检索多媒体资源的索引字段后,根据该索引字段对应的多媒体资源的CID,确定具有所述CID的多媒体资源归属的各网页,并将各网页的链接地址进行索引对应,以获得检索结果; 其中,所述CID为所述多媒体资源经哈希运算后得到的哈希值。由于包含相同内容的多媒体资源具有相同的CID,因此,检索服务器可以根据索引字段对应的CID准确地获取符合要求的多媒体资源,并且无论多媒体资源被上传者设置了何种属性信息,都不会影响最终的检索结果,这样,便在很大程度上提高了检索结果的精准性,从而有效地提升了用户体验。
附图说明
图1为本发明实施例中检索服务器功能结构图;
图2为检索服务器根据索引字段进行多媒体资源检索流程图。
具体实施方式
用户使用搜索引擎进行多媒体资源检索时,为了提高检索结果的精准性,本发明实施例中,接收用户输入的用于检索多媒体资源的索引字段后,根据所述索引字段获得对应的多媒体资源的内容签名(Content ID,CID),该CID为所述多媒体资源经哈希运算后得到的哈希值,接着,确定具有所述CID的多媒体资源归属的各网页,并将各网页的链接地址进行索引对应,以获得检索结果。
下面以视频文件为例并结合附图对本发明优选的实施方式进行详细说明。
参阅图1所示,本实施例中,系统内用于向用户提供多媒体资源检索服务的检索服务器包括存储单元100、用户接口单元101、第一处理单元102和第二处理103,其中:
存储单元100,用于保存多媒体资源的CID,该CID为所述多媒体资源经哈希运算后得到的哈希值;
用户接口单元101,用于接收用户输入的用于检索多媒体资源的索引字段;
第一处理单元102,用于根据所述索引字段获得对应的多媒体资源的CID;
第二处理单元103,用于确定具有所述CID的多媒体资源归属的各网页,并将各网页的链接地址进行索引对应,以获得检索结果。
如图1所示,检索服务器中还可以包括维护单元104,用于记录指定时间段内各用户使用的索引字段和点击的多媒体资源,统计每个索引字段对应的点击率最高的多媒体资源,并根据统计结果对索引字段和多媒体资源之间的对应关系进行更新。
在实际应用中,上述检索服务器既可以运行于互联网内,也可以运行于局域网内,下面仅以互联网为例进行介绍。本实施例中,检索服务器将上传至互联网的每一个视频文件都对应设置一个内容签名(Content ID,CID),每个视频文件的CID是通过对该视频文件进行哈希运算得到的,可以采用的哈希算法包含但不限于:信息-摘要算法(Message-digest Algorithm 5,MD5)、HA1算法和MD4算法。例如,一种较佳的CID计算方法为:获取视频文件头部、中部、尾部各32K字节的数据,并采用MD5算法对其进行计算,得到的哈希值即是上述视频文件的CID。另一方面,由哈希算法本身的特性所决定,内容相同的视频文件具有相同的CID,因此,视频文件的CID可以用于区分视频文件所包含的信息。
在实际应用中,为了提高检索结果的精准度,对于CID相同但用户预设的属性信息不同的视频文件,检索服务器可以采集多个用户的设置内容对该视频文件的属性信息进行校正。下面以视频文件的属性信息为其文件名称为例进行介绍:
视频文件1正确的文件名称为“导火线”,视频文件1的CID称为CID 1,用户A上传视频文件1后将其文件名称设置为“导火索”,用户B上传视频文件1后将其文件名称设置为“导火线”,用户C上传视频文件1后将其文件名称设置为“导火”,用户D上传视频文件1后将其文件名称设置为“导火线”,而用户E上传视频文件1后将其文件名称设置为“火线追击”;那么,检索服务器通过哈希运算,将上述5个用户分别上传的视频文件1的CID均设置为CID1,接着,检索服务器通过Spider工具抓取网页上的信息,统计所有用户设置的文件名称,将设置次数最多的文件名称“导火线”的权重设为最高,并将权重最 高的文件名称“导火线”作为视频文件1最精准的文件名称进行保存,以及在文件名称“导火线”和CID 1之间建立对应关系,这样,当其他用户使用索引字段“导火线”进行视频文件搜索时,检索服务器便可以根据“导火线”和CID 1之间的对应关系,迅速找到具有CID 1的视频文件1所在的各个网页,并将各个网页的链接地址提供给相应的用户,从而无论视频文件1的上传者为其设置了何种文件名称,检索服务器都可以根据CID 1准确地检索到视频文件1所在的网页,这在很大程度上提升了检索结果的精准性。同理,视频文件1的其他属性信息,如版本、地区、发行时间、内容简介等等,也可以采用上述方式获得最精准的信息描述,并与CID 1建立对应关系。
本实施例中,视频文件1的属性信息、CID 1以及这两者之间的对应关系可以保存在检索服务器本地,也可以保存在独立设置的数据库中,以下实施例均可采用此种信息保存方法,将不再赘述。
区别于上述实施例,在另一种情况下,检索服务器还可以采用词组分解的方法来校正视频文件的属性信息。下面仍以视频文件的属性信息为其文件名称为例进行介绍:
视频文件2的正确名称为“不能说的秘密”,视频文件2的CID称为CID 2,用户A上传视频文件2后将其文件名称设置为“周××不能说的秘密”,用户B上传视频文件2后将其文件名称设置为“不能说的秘密”,用户C上传视频文件2后将其文件名称设置为“我有不能说的秘密”,那么,检索服务器通过哈希运算,将上述3个用户分别上传的视频文件2的CID均设置为CID 2,接着检索服务器通过Spider工具抓取网页上的信息,统计所有用户设置的文件名称,并对各用户设置的文件名称进行词组分解,得到的分解结果中包含以下词组:“周××”、“不能说的秘密”和“我有”,其中,“不能说的秘密”这一词组的出现次数最多,即占有的权重最高,因此,检索服务器将“不能说的秘密”作为视频文件2最精准的文件名称进行保存,并在“不能说的秘密”和CID 2之间建立对应关系,这样,当其他用户使用索引字段“不能说的秘密”进行视频文件搜索时, 检索服务器便可以根据“不能说的秘密”和CID 2之间的对应关系,迅速找到具有CID 2的视频文件2所在的各个网页,并将各个网页的链接地址提供给相应的用户。同理,视频文件2的其他属性信息,如版本、地区、发行时间、内容简介等等,也可以采用上述方式获得最精准的信息描述,并与视频文件2的标识CID 2建立对应关系。
基于上述两种规划方式,参阅图2所示,本实施例中,检索服务器根据用户输入的索引字段进行视频文件检索的详细流程如下:
步骤200:接收用户输入的索引字段。
本实施例中,用户输入的索引字段为“标签B”。
步骤210:将接收的索引字段和视频文件的属性信息进行匹配,获得匹配结果。
参阅表1所示,本实施例中,检索服务器为各视频文件的属性信息和其相应的CID专门设置一张对应关系表,其内容如下:
表1
步骤220:根据匹配结果获得对应的CID。
如表1所示,显然,用户输入的索引字段“标签B”与第二个视频文件的名称匹配成功,那么,检索服务器便可以根据这个匹配结果获得对应的CID B。
步骤230:根据获得的CID确定具有该CID的视频文件所在的各网页。
步骤240:将各网页的链接地址进行索引对应,得到检索结果。
本实施例中,即是检索服务器将具有CID B的视频文件所在的各网页的链接地址,在搜索引擎呈现的网页内进行索引对应,得到最后的检索结果;其中,检索服务器可以将各网页的链接地址,按照具有CID B的多媒体资源在各网页的发布时间、播放次数或被评论次数进行排序。
步骤250:将检索结果呈现给相应的用户。
基于上述实施例,在实际应用中,若视频文件(其CID称为源CID)被转码为其他格式上传,则检索服务器应针对转码后的视频文件重新设置CID(称为子CID),并且,检索服务器在源CID和子CID之间建立对应关系,一个源CID可以对应多个子CID,在建立对应关系时,可以在源CID中增设属性字段,通过增设的属性字段来表示源CID的各种属性,例如,通过属性字段表示存在与源CID对应的子CID、源CID对应的子CID的个数和各子CID的序号等等。检索服务器在检索具有源CID的视频文件时,也需要将具有子CID的视频文件列入检索范围之内,即检索服务器最终获取的各网页中既包括具有源CID的视频文件所在的网页,也包括具有子CID的视频文件所在的网页,这样,便进一步提高了检索结果的精准性。
基于上述实施例,检索服务器在为用户提供其需要的视频文件后,定期或不定其地对指定时间段内的各个用户的检索行为进行采集并整理,例如,将各用户检索时使用的索引字段和对应的点击结果进行记录和汇总统计,得到每个索引字段对应的点击率最高的视频文件,并根据统计结果对索引字段与视频文件之间的对应关系进行更新,以便在用户下一次进行检索时,为其提供更为精准的检索结果。
另一方面,在用户输入的索引字段不完整的情况下,检索服务器可以根据对用户的历史检索行为的统计结果,将索引字段补充完整(可以有多种补充方式),并将补充后的索引字段呈现给用户以供选择,较佳地,将不同的补充后的索引字段按照其被检索的次数从大到小顺序进行排列,并将排列结果呈现给用户。
当然,上述各实施例同样适合于其他的多媒体资源,例如,音频文件。检索服务器针对其他多媒体资源同样可以通过设置CID的方式来获得准确的检索结果,在此不再赘述。
综上所述,本发明实施例中,检索服务器接收用户输入的用于检索多媒体资源的索引字段后,根据该索引字段对应的多媒体资源的CID,确定具有所述CID的多媒体资源归属的各网页,并将各网页的链接地址进行索引对应,以获得检索结果;其中,所述CID为所述多媒体资源经哈希运算后得到的哈希值。由于包含相同内容的多媒体资源具有相同的CID,因此,检索服务器可以根据索引字段对应的CID准确地获取符合要求的多媒体资源,并且无论多媒体资源被上传者设置了何种属性信息,都不会影响最终的检索结果,这样,便在很大程度上提高了检索结果的精准性,从而有效地提升了用户体验。
显然,本领域的技术人员可以对本发明中的实施例进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明实施例中的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明中的实施例也意图包含这些改动和变型在内。
Claims (8)
1.一种检索多媒体资源的方法,其特征在于,包括:
接收用户输入的用于检索多媒体资源的索引字段;
根据所述索引字段获得对应的多媒体资源的内容签名CID,该CID为所述多媒体资源经哈希运算后得到的哈希值,所述内容签名CID还对应子CID,所述子CID为将所述多媒体资源转码为其他格式后,经哈希运算得到的哈希值;
确定具有所述CID以及所述子CID的多媒体资源归属的各网页,并将各网页的链接地址进行索引对应,以获得检索结果。
2.如权利要求1所述的方法,其特征在于,接收用户输入的索引字段后,根据历史检索行为的统计结果,对用户输入的索引字段进行补充,并将补充后的索引字段呈现给用户,以及在用户重新选择索引字段后,根据重新选择的索引字段获得对应的多媒体资源的CID。
3.如权利要求1所述的方法,其特征在于,获取具有所述CID的多媒体资源归属的各网页后,将各网页的链接地址按照该多媒体资源在各网页的发布时间、播放次数或被评论次数进行排序。
4.如权利要求1、2或3所述的方法,其特征在于,记录指定时间段内各用户使用的索引字段和点击的多媒体资源,统计每个索引字段对应的点击率最高的多媒体资源,并根据统计结果对索引字段和多媒体资源之间的对应关系进行更新。
5.一种用于检索多媒体资源的服务器,其特征在于,包括:
存储单元,用于保存多媒体资源的内容签名CID,该CID为所述多媒体资源经哈希运算后得到的哈希值,并保存所述CID对应的子CID,所述子CID为将所述多媒体资源转码为其他格式后,经哈希运算得到的哈希值;
用户接口单元,用于接收用户输入的用于检索多媒体资源的索引字段;
第一处理单元,用于根据所述索引字段获得对应的多媒体资源的CID以及子CID;
第二处理单元,用于确定具有所述CID以及所述子CID的多媒体资源归属的各网页,并将各网页的链接地址进行索引对应,以获得检索结果。
6.如权利要求5所述的服务器,其特征在于,所述用户接口单元接收用户输入的索引字段后,所述第一处理单元根据历史检索行为的统计结果,对用户输入的索引字段进行补充,并将补充后的索引字段通过所述用户接口单元呈现给用户,以及在用户重新选择索引字段后,根据重新选择的索引字段获得对应的多媒体资源的CID。
7.如权利要求5所述的服务器,其特征在于,所述第二处理单元获取具有所述CID的多媒体资源归属的各网页后,将各网页的链接地址按照该多媒体资源在各网页的发布时间、播放次数或被评论次数进行排序。
8.如权利要求5、6或7所述的服务器,其特征在于,还包括:
维护单元,用于记录指定时间段内各用户使用的索引字段和点击的多媒体资源,统计每个索引字段对应的点击率最高的多媒体资源,并根据统计结果对索引字段和多媒体资源之间的对应关系进行更新。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN200810188199XA CN101477527B (zh) | 2008-12-30 | 2008-12-30 | 一种检索多媒体资源的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN200810188199XA CN101477527B (zh) | 2008-12-30 | 2008-12-30 | 一种检索多媒体资源的方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101477527A CN101477527A (zh) | 2009-07-08 |
CN101477527B true CN101477527B (zh) | 2011-01-19 |
Family
ID=40838244
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN200810188199XA Expired - Fee Related CN101477527B (zh) | 2008-12-30 | 2008-12-30 | 一种检索多媒体资源的方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101477527B (zh) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102136001B (zh) * | 2011-03-25 | 2012-12-26 | 天脉聚源(北京)传媒科技有限公司 | 一种多媒体信息模糊检索方法 |
CN102193995B (zh) * | 2011-04-26 | 2014-05-28 | 深圳市迅雷网络技术有限公司 | 一种建立多媒体数据索引、检索的方法及装置 |
CN102929874A (zh) * | 2011-08-08 | 2013-02-13 | 深圳市快播科技有限公司 | 检索数据的排序方法及装置 |
CN103780925A (zh) * | 2012-10-26 | 2014-05-07 | 深圳市快播科技有限公司 | 一种基于移动平台的在线视频点播方法和系统 |
CN104348867A (zh) * | 2013-08-02 | 2015-02-11 | 好看科技(深圳)有限公司 | 视频发送方法、接收方法、设备和系统 |
US9668020B2 (en) | 2014-04-07 | 2017-05-30 | The Nielsen Company (Us), Llc | Signature retrieval and matching for media monitoring |
CN104021178B (zh) * | 2014-06-04 | 2018-02-02 | 深圳市腾讯计算机系统有限公司 | 多媒体信息过滤方法和装置 |
CN105677829A (zh) * | 2016-01-04 | 2016-06-15 | 陈华锋 | 一种检索方法及系统 |
CN107231578A (zh) * | 2017-08-04 | 2017-10-03 | 四川长虹电器股份有限公司 | 视频文件快速播放的系统及方法 |
CN115510004A (zh) * | 2022-11-22 | 2022-12-23 | 广东省信息安全测评中心 | 一种政务数据资源命名方法及管理系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1551562A (zh) * | 2003-05-07 | 2004-12-01 | ���ǵ�����ʽ���� | 一种对内容提供者进行认证及确保内容完整性的方法 |
US7017045B1 (en) * | 2000-08-22 | 2006-03-21 | Koninklijke Philips Electronics N.V. | Multimedia watermarking system and method |
CN1890662A (zh) * | 2003-09-29 | 2007-01-03 | 千兆科技(深圳)有限公司 | 内容定向的索引和搜索方法与系统 |
-
2008
- 2008-12-30 CN CN200810188199XA patent/CN101477527B/zh not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7017045B1 (en) * | 2000-08-22 | 2006-03-21 | Koninklijke Philips Electronics N.V. | Multimedia watermarking system and method |
CN1551562A (zh) * | 2003-05-07 | 2004-12-01 | ���ǵ�����ʽ���� | 一种对内容提供者进行认证及确保内容完整性的方法 |
CN1890662A (zh) * | 2003-09-29 | 2007-01-03 | 千兆科技(深圳)有限公司 | 内容定向的索引和搜索方法与系统 |
Also Published As
Publication number | Publication date |
---|---|
CN101477527A (zh) | 2009-07-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101477527B (zh) | 一种检索多媒体资源的方法及装置 | |
US7788262B1 (en) | Method and system for creating context based summary | |
JP5105802B2 (ja) | 情報処理装置 | |
US9300711B2 (en) | Podcast organization and usage at a computing device | |
US7966362B2 (en) | Management of podcasts | |
US20090089278A1 (en) | Techniques for keyword extraction from urls using statistical analysis | |
US8516035B2 (en) | Browsing and searching of podcasts | |
US9152614B2 (en) | System and method for bulk web domain generation and management | |
CN103984740B (zh) | 基于组合标签的检索页显示的方法和系统 | |
US10621187B2 (en) | Methods, systems, and media for providing a media search engine | |
WO2002101588A1 (fr) | Systeme de gestion de contenus | |
US20080065602A1 (en) | Selecting advertisements for search results | |
US20110119248A1 (en) | Topic identification system, topic identification device, client terminal, program, topic identification method, and information processing method | |
CN111008321A (zh) | 基于逻辑回归推荐方法、装置、计算设备、可读存储介质 | |
US20160125079A1 (en) | Storing fingerprints of multimedia streams for the presentation of search results | |
CN104035993A (zh) | 电子书的存储检索方法、电子书管理系统、阅读系统 | |
JP2003519844A (ja) | スタイルシートに基づいて構造化されたドキュメントのインデックスを作成する方法および装置 | |
CN112825089A (zh) | 文章推荐方法、装置、设备及存储介质 | |
JP7395377B2 (ja) | コンテンツ検索方法、装置、機器、および記憶媒体 | |
US8312011B2 (en) | System and method for automatic detection of needy queries | |
JP5447484B2 (ja) | 情報処理装置 | |
US7809745B2 (en) | Method for generating structured query results using lexical clustering | |
US8495025B2 (en) | Foldering by stable query | |
US8131752B2 (en) | Breaking documents | |
CN107203621A (zh) | 一种基于拼音首字母的查询方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
C17 | Cessation of patent right | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20110119 Termination date: 20111230 |