CN101145149A - 基于下载引擎的二进制文件相关搜索方法及系统 - Google Patents

基于下载引擎的二进制文件相关搜索方法及系统 Download PDF

Info

Publication number
CN101145149A
CN101145149A CNA2006100625624A CN200610062562A CN101145149A CN 101145149 A CN101145149 A CN 101145149A CN A2006100625624 A CNA2006100625624 A CN A2006100625624A CN 200610062562 A CN200610062562 A CN 200610062562A CN 101145149 A CN101145149 A CN 101145149A
Authority
CN
China
Prior art keywords
binary file
relevant
download
binary
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA2006100625624A
Other languages
English (en)
Inventor
程浩
林浩
王小乐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qiaozhao Technology (shenzhen) Coltd
Original Assignee
Qiaozhao Technology (shenzhen) Coltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qiaozhao Technology (shenzhen) Coltd filed Critical Qiaozhao Technology (shenzhen) Coltd
Priority to CNA2006100625624A priority Critical patent/CN101145149A/zh
Publication of CN101145149A publication Critical patent/CN101145149A/zh
Pending legal-status Critical Current

Links

Images

Abstract

本发明涉及一种基于下载引擎的二进制文件相关搜索方法和系统,所述系统中包括由下载引擎服务器及至少一个下载客户端组成的下载引擎,以及相关搜索服务器;其中,下载客户端在下载一个二进制文件时,会根据当前正在下载的二进制文件向相关搜索服务器发出查询请求,然后由相关搜索服务器查看是否存在相关的其他二进制文件,如果存在至少一个相关二进制文件,则将其信息传送给下载客户端;然后由下载客户端显示给用户。可见,本发明中,下载客户端在下载目标二进制文件的同时,还能自动获取与之相关的其他二进制文件的信息并显示给用户,使得下载引擎在提供下载服务的同时,还成为了用户获取相关信息的主要渠道,从而可创造出新的互联网商业价值。

Description

基于下载引擎的二进制文件相关搜索方法及系统
技术领域
本发明涉及互联网的下载及搜索技术,更具体地说,涉及一种基于下载引擎的二进制文件相关搜索方法及系统。
背景技术
下载引擎(Download Engine)是一种新的互联网概念,它由下载引擎服务器以及至少一个下载客户端组成,可为互联网整体加速并有效合理配置资源提供极大的方便。
例如由深圳市迅雷网络技术有限公司推出的“迅雷5”,就是一款新型的基于多资源超线程技术的下载客户端软件。作为“宽带时期的下载工具”,“迅雷5”针对宽带用户做了特别的优化,能够充分利用宽带上网的特点,带给用户高速下载的全新体验。迅雷下载引擎使用的多资源超线程技术基于网格原理,能够将网络上存在的服务器和计算机资源进行有效的整合,使得各种数据二进制文件能够以最快的速度进行传递。
但是,现有的各类下载引擎通常只提供简单的下载服务,用户无法从下载服务中方便快捷地获取更多的娱乐资讯。例如,用户可通过GOOGLE、YAHOO等搜索引擎在网上搜出“星球大战(STAR WAR)”这部电影的第一集,当他在下载第一集时,可能还想顺便下载第二、第三集来一起观看,然而现有的下载引擎并不会提供与此相关的信息,用户必须再次进入GOOGLE、YAHOO等搜索引擎,重新在茫茫的互联网中查找“星球大战”这部电影的第二、第三集两个二进制文件的URL(Uniform Resource Locator,在Internet的WWW服务程序上用于指定信息位置的表示方法),才能进行下载。可见,现有下载引擎远远没有满足让用户方便快捷地获取娱乐资讯的需求。
发明内容
针对现有技术的上述缺陷,本发明要解决现有的各类下载引擎只能提供简单的下载服务的问题,以满足让用户方便快捷地获取娱乐资讯的需求。
为解决上述技术问题,本发明提供一种基于下载引擎的二进制文件相关搜索系统,其中包括由下载引擎服务器及至少一个下载客户端组成的下载引擎,还包括可按预定规则在互联网中搜索出与指定二进制文件相关的其他二进制文件的相关搜索服务器;其中,所述下载客户端可根据当前正在下载的二进制文件向所述相关搜索服务器发出查询请求;所述相关搜索服务器根据所述查询请求查看互联网中是否存在与所述二进制文件相关的其他二进制文件,如果存在至少一个相关二进制文件,则将所述至少一个相关二进制文件的信息传送给所述下载客户端;所述下载客户端可将其收到的所述至少一个相关二进制文件的信息显示给用户
另外,本发明还提供一种基于下载引擎的二进制文件相关搜索方法,其中,所述下载引擎包括下载引擎服务器及下载客户端,当所述下载客户端下载一个二进制文件时,还按以下步骤进行相关搜索:
(S1)由所述下载客户端根据当前正在下载的二进制文件,向相关搜索服务器发出查询请求;
(S2)所述相关搜索服务器根据所述查询请求,查看互联网中是否存在与所述二进制文件相关的其他二进制文件,如果存在至少一个相关二进制文件,则将所述至少一个相关二进制文件的信息传送给所述下载客户端;
(S3)所述下载客户端接收到所述至少一个相关二进制文件后,将其信息显示给用户。
在本发明所述的方法中,还包括以下预处理步骤:对互联网中的二进制文件打标签,然后由所述相关搜索服务器根据每一个二进制文件的标签搜索其相关二进制文件,并保存各个二进制文件的信息。
其中,可通过手动方式对互联网中的二进制文件打标签,和/或由所述相关搜索服务器按预定规则自动地对互联网中的二进制文件打标签。针对每一个二进制文件,如果其标签是英文,可采用完全匹配原则来搜索其相关二进制文件;如果标签是中文,则可采用二分匹配原则搜索其相关二进制文件。
在本发明所述的方法中,可由所述相关搜索服务器按预定规则对已打标签的二进制文件进行索引,并根据所述索引的结果来保存各个二进制文件的信息。例如可针对每一个已打标签的二进制文件,由所述相关搜索服务器对其唯一标识进行哈希算法处理,然后以链表的形式建立相应的索引。
由上述技术方案可知,本发明的下载客户端在下载目标二进制文件时,还能从相关搜索服务器处自动获取与之相关的其他二进制文件的信息,并显示给用户。如此一来,用户就可方便地看到与当前下载之二进制文件相关的一个或多个二进制文件的信息,通常体现为链接信息,通过直接点击某一个链接信息,就可进一步下载一个相关二进制文件。本发明使得下载引擎在提供下载服务的同时,还成为了用户获取相关信息的主要渠道,从而可完善下载引擎的数字娱乐功能,进而以用户及客户的需求为中心创造出新的互联网商业价值。
附图说明
下面将结合附图及实施例对本发明作进一步说明,附图中:
图1是本发明一个优选实施例中基于下载引擎的二进制文件相关搜索方法的流程图;
图2是本发明一个优选实施例中下载客户端的显示界面示意图;
图3是本发明一个优选实施例中对二进制文件的唯一标识进行哈希算法处理后再以链表形式保存于相关搜索服务器的示意图。
具体实施方式
本发明一个优选实施例如图1所示,从图中可以看出,本实施例中的基于下载引擎的二进制文件相关搜索系统中包括:一个下载引擎服务器、至少一个下载客户端(即装于用户计算机终端上的下载客户端软件)、以及一个相关搜索服务器。其中,下载引擎服务器和至少一个下载客户端组成下载引擎。而相关搜索服务器的功能是可按预定规则在互联网中搜索出与指定二进制文件相关的其他二进制文件的。
如图1所示,当下载客户端开始下载一个二进制文件时,按以下步骤进行相关搜索:
(S1)由下载客户端根据当前正在下载的二进制文件向相关搜索服务器发出查询请求。
(S2)相关搜索服务器收到该查询请求后,会查看互联网中是否存在与当前正在下载的二进制文件相关的其他二进制文件,如果存在至少一个相关二进制文件,则将这些相关二进制文件的信息传送给下载客户端。
(S3)由下载客户端将这些相关二进制文件的信息显示给用户。
上述过程与使用普通搜索引擎(例如GOOGLE、百度)进行搜索的过程比较类似。但本发明的创新点是将‘文件下载’与‘相关文件搜索’集中到一起,形成一个具有相关文件搜索功能的下载客户端;再与相关搜索服务器、下载服务器配合,最终得到一个具有相关文件搜索功能的下载系统,其特点是以下载为主,相关文件搜索为辅。
步骤(S1)中,下载客户端在发送查询请求时,将当前正在下载的二进制文件的信息传送给相关搜索服务器。其中,查询请求中包含的信息可以是中文文件名、外文文件名、文件名中的关键字、制作人/所有权人名称等,从后面的描述中可以看出,通常是使用二进制文件的CID。
步骤(S2)是具体的搜索过程,具体实施时,可采用现有的各种搜索技术,例如各种搜索引擎所使用的技术,区别在于本发明中只搜索相关的二进制文件,具体体现为文件名及其下载地址,而不像传统搜索引擎那样会搜索与当前二进制文件相关的各种网页。
步骤(S3)是简单的显示过程,通常显示在界面中比较显著的位置。如图2所示即为本发明一个优选实施例中的显示界面。从图中可以看出,当前正在下载的文件名称为“Thunder5.1.5.189.exe”,其中还显示了文件大小(3.30MB)、下载进度(95.8%)、下载速度(216.48KB/s)等信息。另外,在显示界面的右侧有一个“热门推荐”栏目,其下面又分为“相关推荐”、“最新推荐”等小栏目,以“相关推荐”为例,其下面显示了与当前正在下载之文件相关的其他一些文件的信息,包括“迅雷(Thunder)V5.1.4.174正式版”、“迅雷听听V1.1.0.8beta版”、“迅雷(Thunder)V5.1.8.189正式版”等文件的信息。
为了实现图1所示的流程,还需要进行相应的预处理,具体是对互联网中的二进制文件打标签,所谓打标签,就是总结每一个二进制文件的信息关键字,类似于一篇论文前面的关键字信息。
例如,对于“迅雷(Thunder)V5.1.4.174正式版"这个文件,其中文标签为“迅雷”、英文标签为“Thunder”。
对于“迅雷5.1.8.189”,其主要的中文标签为“迅雷”,当然还可根据具体情况总结出其他内容的标签。
具体实施时,主要是通过手动方式对互联网中的二进制文件进行打标签这一工作。互联网中的文件虽然非常之多,但可供下载的文件只占其中的一部分,而需要使用下载引擎这样的工具来下载的大型文件数目又有所减少,其中属于热点下载的文件又只占一少部分,通常是一些电影、游戏软件等。所以,在通过工人方式进行打标签时,首先是针对网上的最热点文件,然后是次热点文件,依次处理。熟悉了打标签的基本规则之后,假设每个人每天可完成400个文件的打标签工作,如果10个人工作10天,就可完成40000个文件的打标签工作,日积月累,就可得到一个庞大的标签数据库。
当然,除了上述人工打标签方式之外,也可由相关搜索服务器或其他服务器按预定规则自动地对互联网中的二进制文件打标签。
然后,由相关搜索服务器针对每一个已打标签的二进制文件,按预定算法计算出该二进制文件的唯一标识(通常称为CID),再结合该二进制文件的文件名,即可得到该二进制文件的CID、标签、以及文件名信息。对各个已打标签的文件进行相同处理,即可得到一个索引表,其形式可如表一所示,从表中可以看出,第一个文件具有两个标签,某些文件可能具有三个或更多标签,当然也可能只有一个标签。
表一
    文件名     CID     标签
    1     迅雷(Thunder)     ...     迅雷     Thunder
    v5.1.4.174正式版
    2     迅雷5.1.8.189     ...     迅雷
    3
在完成上述步骤之后,可由相关搜索服务器根据每一个二进制文件的标签,搜索其相关二进制文件,并保存各个二进制文件的信息。具体实施时,针对每一个二进制文件,如果其标签是英文,则采用完全匹配原则来搜索其相关二进制文件;如果标签是中文,则采用二分匹配原则搜索其相关二进制文件。例如,某个文件的标签是“Internet“,那么相关文件的标签中也必须含有”Internet“;如果某个文件的标签是“北京市”,那么相关文件的标签中必须同时含有“北京”和“京市”。当然,也可采取其他匹配方式。
如图3所示,二进制文件的唯一标识(通常称为CID)为20字节十六进制数,相关搜索服务器可首先取CID的前2字节作为哈希值,取值范围为[0,65535],每个哈希结点也是一个链表的头结点,而每个链表存储了哈希值相同的二进制文件的CID。
下载客户端在下载某一二进制文件时,可使用相同的规则计算出其CID,该下载客户端向相关搜索服务器发出的查询请求中含有该CID,相关搜索服务器收到该查询请求及CID之后,查找出与该CID对应的二进制文件的标签:然后再根据所得标签(例如“迅雷”),查找出具有相同标签的其他二进制文件,并将所查到的其他二进制文件的文件名及其他所需信息返还给下载客户端。
由上述具体实施方式可知,本发明的下载客户端在下载目标二进制文件时,还能从相关搜索服务器处自动获取与之相关的其他二进制文件的信息,并显示给用户。如此一来,用户就可方便地看到与当前下载之二进制文件相关的一个或多个二进制文件的信息,通常体现为链接信息,通过直接点击某一个链接信息,就可进一步下载一个相关二进制文件。本发明使得下载引擎在提供下载服务的同时,还成为了用户获取相关信息的主要渠道,从而可完善下载引擎的数字娱乐功能,进而以用户及客户的需求为中心创造出新的互联网商业价值。

Claims (9)

1.一种基于下载引擎的二进制文件相关搜索系统,其中包括由下载引擎服务器及至少一个下载客户端组成的下载引擎,其特征在于,还包括可按预定规则在互联网中搜索出与指定二进制文件相关的其他二进制文件的相关搜索服务器;
其中,所述下载客户端可根据当前正在下载的二进制文件向所述相关搜索服务器发出查询请求;所述相关搜索服务器根据所述查询请求查看互联网中是否存在与所述二进制文件相关的其他二进制文件,如果存在至少一个相关二进制文件,则将所述至少一个相关二进制文件的信息传送给所述下载客户端;所述下载客户端可将其收到的所述至少一个相关二进制文件的信息显示给用户。
2.一种基于下载引擎的二进制文件相关搜索方法,其中,所述下载引擎包括下载引擎服务器及下载客户端,其特征在于,当所述下载客户端下载一个二进制文件时,还按以下步骤进行相关搜索:
(S1)由所述下载客户端根据当前正在下载的二进制文件,向相关搜索服务器发出查询请求;
(S2)所述相关搜索服务器根据所述查询请求,查看互联网中是否存在与所述二进制文件相关的其他二进制文件,如果存在至少一个相关二进制文件,则将所述至少一个相关二进制文件的信息传送给所述下载客户端;
(S3)所述下载客户端接收到所述至少一个相关二进制文件后,将其信息显示给用户。
3.根据权利要求2所述的方法,其特征在于,其中还包括以下预处理步骤:对互联网中的二进制文件打标签,然后由所述相关搜索服务器根据每一个二进制文件的标签搜索其相关二进制文件,并保存各个二进制文件的信息。
4.根据权利要求3所述的方法,其特征在于,其中通过手动方式对互联网中的二进制文件打标签,和/或由所述相关搜索服务器按预定规则自动地对互联网中的二进制文件打标签。
5.根据权利要求4所述的方法,其特征在于,针对每一个二进制文件,如果其标签是英文,则采用完全匹配原则来搜索其相关二进制文件;如果标签是中文,则采用二分匹配原则搜索其相关二进制文件。
6.根据权利要求3-5中任一项所述的方法,其特征在于,其中由所述相关搜索服务器按预定规则对已打标签的二进制文件进行索引,并根据所述索引的结果来保存各个二进制文件的信息。
7.根据权利要求6所述的方法,其特征在于,针对每一个已打标签的二进制文件,由所述相关搜索服务器对其唯一标识进行哈希算法处理,然后以链表的形式建立相应的索引。
8.根据权利要求2-5中任一项所述的方法,其特征在于,所述步骤(S2)中的相关二进制文件的信息包括相关二进制文件的文件名、链接地址。
9.根据权利要求8所述的方法,其特征在于,所述步骤(S3)中,显示相关二进制文件的文件名。
CNA2006100625624A 2006-09-11 2006-09-11 基于下载引擎的二进制文件相关搜索方法及系统 Pending CN101145149A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNA2006100625624A CN101145149A (zh) 2006-09-11 2006-09-11 基于下载引擎的二进制文件相关搜索方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNA2006100625624A CN101145149A (zh) 2006-09-11 2006-09-11 基于下载引擎的二进制文件相关搜索方法及系统

Publications (1)

Publication Number Publication Date
CN101145149A true CN101145149A (zh) 2008-03-19

Family

ID=39207678

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA2006100625624A Pending CN101145149A (zh) 2006-09-11 2006-09-11 基于下载引擎的二进制文件相关搜索方法及系统

Country Status (1)

Country Link
CN (1) CN101145149A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105229639B (zh) * 2013-03-13 2016-09-21 脸谱公司 短词散列
CN109299227A (zh) * 2018-11-07 2019-02-01 平安医疗健康管理股份有限公司 基于语音识别的信息查询方法和装置
CN110083675A (zh) * 2019-04-19 2019-08-02 宝能汽车有限公司 文本处理方法及装置

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105229639B (zh) * 2013-03-13 2016-09-21 脸谱公司 短词散列
US10318652B2 (en) 2013-03-13 2019-06-11 Facebook, Inc. Short-term hashes
CN109299227A (zh) * 2018-11-07 2019-02-01 平安医疗健康管理股份有限公司 基于语音识别的信息查询方法和装置
CN109299227B (zh) * 2018-11-07 2023-06-02 平安医疗健康管理股份有限公司 基于语音识别的信息查询方法和装置
CN110083675A (zh) * 2019-04-19 2019-08-02 宝能汽车有限公司 文本处理方法及装置
CN110083675B (zh) * 2019-04-19 2021-11-30 宝能汽车集团有限公司 文本处理方法及装置

Similar Documents

Publication Publication Date Title
CN1104696C (zh) 自动添加信息的超级文本链接接收文件的系统和方法
US7505956B2 (en) Method for classification
US7788262B1 (en) Method and system for creating context based summary
CN101911042B (zh) 用户的浏览器历史的相关性排序
US9424351B2 (en) Hybrid-distribution model for search engine indexes
CN102227725B (zh) 用于匹配实体的系统和方法
JP2009528624A (ja) クエリの一部に基づくキャッシュクエリ結果の提供
US8909669B2 (en) System and method for locating and retrieving private information on a network
CN103221951A (zh) 预测查询建议高速缓存
CN101477527B (zh) 一种检索多媒体资源的方法及装置
WO2014018780A1 (en) Adaptive gathering of structured and unstructured data system and method
US9195745B2 (en) Dynamic query master agent for query execution
WO2001065418A1 (en) System and method for high speed string matching
Phelps et al. Robust hyperlinks: Cheap, everywhere, now
US7376650B1 (en) Method and system for redirecting a request using redirection patterns
CN113767390A (zh) 用于分布式存储系统中的改变检测的属性分组
US8346780B2 (en) Integrated search server and integrated search method
CN102299960A (zh) 基于p2p技术的网络文件系统及方法
CN113656673A (zh) 面向广告投放的主从分布内容爬取机器人
CN110020272B (zh) 缓存方法、装置以及计算机存储介质
CN110955855B (zh) 一种信息拦截的方法、装置及终端
US7809745B2 (en) Method for generating structured query results using lexical clustering
CN101145149A (zh) 基于下载引擎的二进制文件相关搜索方法及系统
JP2003067397A (ja) コンテンツ管理システム
CN106959975B (zh) 一种转码资源缓存处理方法、装置及设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Open date: 20080319