CN101764807B - 基于元搜索引擎的多源下载互联网资源的装置及方法 - Google Patents

基于元搜索引擎的多源下载互联网资源的装置及方法 Download PDF

Info

Publication number
CN101764807B
CN101764807B CN200910241934A CN200910241934A CN101764807B CN 101764807 B CN101764807 B CN 101764807B CN 200910241934 A CN200910241934 A CN 200910241934A CN 200910241934 A CN200910241934 A CN 200910241934A CN 101764807 B CN101764807 B CN 101764807B
Authority
CN
China
Prior art keywords
download
search
address
file
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN200910241934A
Other languages
English (en)
Other versions
CN101764807A (zh
Inventor
魏更宇
张世栋
张冬梅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
Original Assignee
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications filed Critical Beijing University of Posts and Telecommunications
Priority to CN200910241934A priority Critical patent/CN101764807B/zh
Publication of CN101764807A publication Critical patent/CN101764807A/zh
Application granted granted Critical
Publication of CN101764807B publication Critical patent/CN101764807B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

一种基于元搜索引擎的多源下载互联网资源的装置及方法,该装置设有用户单元、叠加网单元、搜索单元与下载单元,所有单元或软件模块均部署在客户端,并在客户端完成所有下载操作,以弱化现有的下载装置对中心服务器或多媒体检索数据库的依赖和脱离服务被动选择的模式,并充分利用元搜索引擎的发展,开展互联网的下载应用。该装置充分利用互联网的元搜索引擎定位发现文件源地址,并对目标文件进行同一资源的多个地址搜索,通过多源下载技术进行目标资源的并行下载与合并。做到了既利用各类搜索引擎的发展,提高搜索结果的准确度;又利用多源下载技术提供更快、更稳定的下载服务。而且,资源的地址与搜索都基于用户的设置,能满足用户的个性化需求。

Description

基于元搜索引擎的多源下载互联网资源的装置及方法
技术领域
本发明涉及一种涉及搜索引擎和多源下载的技术,确切地说,涉及一种基于元搜索引擎的个性化搜索的多源下载互联网资源的装置及方法,属于互联网资源下载的技术领域。
背景技术
网络下载技术,又称为网络文件共享技术,是现有互联网最广泛的应用。最先出现的文件共享主要通过Web技术实现,即把共享的文件放到服务器上,构成中心化的文件存储模型后,客户机通过超文本传输协议HTTP(Hyper TextTransfer Protocol)和文本传输协议FTP(File Transfer Protocol)等协议从服务器下载这些文件,这就是所谓用户到服务器的P2S(Peer to Server)结构模式。随着网络应用及网络用户的大量增加,中心化的文件存储服务器需要对非常多的用户访问提供支持,这就使得负载均衡问题成为这类下载技术的最大瓶颈。
这种情况下,以资源分散、负载均衡和非中心化为特点的对等网络P2P(Peerto Peer)技术在文件共享领域得到了广泛应用,该技术的特征是以客户端身份下载了文件的对等端,随后,又以服务器身份使这些文件供其他对等端使用。一般而言,基于P2P技术的文件共享的中心问题是定位资源。P2P技术可以充分利用参与结点的带宽,通过大量结点之间互相传递数据、合作下载的方式提高网络中传送大容量文件的效率。
虽然P2P技术是以去中心化为研究重点,但其连接的不可控性使得基于该技术的在线下载缺乏稳定性。为了结合P2S模式与P2P模式的网络下载的优势,出现了一种所谓用户对服务器与用户模式的P2SP(Peer to Server and Peer)技术。简单地说,P2SP技术就是下载不再像传统方式那样只能依赖服务器,内容的传递可以在网络上的各个终端中进行。P2SP除了包含P2P以外,P2SP的“S”是指服务器。P2SP有效地把原本孤立的服务器与其镜像资源以及P2P资源都整合在一起。也就是说,在下载的稳定性和下载的速度上,都比传统的P2P或P2S都有了非常大的提高。在国内以迅雷为代表的P2SP技术取得了巨大成功,类似的还有Orbit、PPgou、Tuotu等.
对应以上网络技术的发展,就国内最普遍的应用而言,可分为三种形式:
第一种为集中式,以超文本传输协议HTTP、文件传输协议FTP下载为主。由于受到服务器带宽的限制,这种下载模式会严重影响下载的速度。
第二种为分布式,以BT和eMule为代表,主要特征是资源分布在众多个人终端电脑上,这种方式避免了单一带宽对下载速度的影响,但不能保证服务的稳定性。
第三种为混合式,以迅雷、超级旋风、脱兔等为代表。整合了网络搜索、HTTP下载、FTP下载和P2P下载等多种技术,这种方式将多个中心化的资源服务器和客户一起组成P2SP网络,保证了下载的速度和稳定性。
对现有的文件共享软件进行归总,通常采用两种途径获得文件源地址:第一种是P2P协议叠加网的洪泛式搜索与分布式哈希路由表DHT(DistributedHash Table)式搜索,第二种是集中式的多媒体检索数据库服务器。根据现在共享软件的用户数量分析,迅雷、腾讯、旋风等以多媒体检索数据库为中心的共享软件占据了绝大部分市场份额,说明运营性质的源地址索引功能对下载软件十分重要。
搜索引擎的出现,大大提高了人们对互联网信息检索的能力和效率,已经成为当前最普遍的辅助人们检索信息的工具。据中国互联网网络信息中心发布的“2008年中国互联网络发展状况统计报告”,中国网民搜索引擎的使用率为72.4%,并仍然处于高速增长中。而在互联网高度普及的美国,网民对搜索引擎的使用率已达91%。可见,搜索引擎已经成为网民不可或缺的工具。
目前,搜索引擎领域主要有以下几种技术:
(1)通用搜索引擎:目前应用最广泛,且用户数量最多,主要代表有谷歌(www.google.com)、百度(www.baidu.com)、雅虎(cn.yahoo.com)等。
通用搜索引擎采用网络爬行器对万维网遍历查询和信息采集,然后对结果进行存储和预处理,最后由服务系统将符合要求的结果返回给用户。
随着Web信息的迅速增长,用户可以通过搜索引擎获得丰富的资源,但是该类搜索服务存在局限性:通用搜索引擎不可能解析、索引网络上的所有网页,用户需要调用多个搜索引擎才能获取满意的搜索结果,降低了检索效率。
(2)元搜索引擎(Meta-Search-Engine):为了弥补通用搜索引擎的不足,出现了元搜索引擎,其主要代表有国外的MetaCrawler(www.metacawler.com)、Dogpile(www.dogpile.com)和国内的比比猫(www.bbmao.com)等。
元搜索引擎是通过一个统一的界面将用户检索请求同时发送给多个搜索引擎,再将它们的各自搜索结果汇集在一起返回给用户的搜索技术。它综合了多个独立搜索引擎的搜索结果,从而提高了搜索结构在整个网络资源上的覆盖率,省去了用户自己逐个调用不同搜索引擎进行查询的麻烦。但是,该类搜索引擎与通用搜索引擎都是向用户提供海量的无序网页,并且,用同一模式服务于不同用户,这样的通用性无法满足用户有差别的个性化需求。
(3)垂直搜索(Vertical Search Engine):为了弥补传统搜索引擎和元搜索引擎的不足,给用户提供更为精准的搜索服务,人们提出垂直搜索引擎的思想。该类搜索引擎是针对某一主题的信息进行爬行、索引和整合,并提取所需的数据进行处理,以满足不同用户的个性化需求,所以又被称个性化搜索引擎。垂直搜索引擎的定位不是整个Web网络,而是与某个主题相关的网络,这样具有很强的针对性,其次,运用机器学习等智能化技术手段满足用户个性化需求,因此它比通用搜索引擎与元搜索引擎更加有效。
发明内容
有鉴于此,本发明的目的是提供一种基于元搜索引擎的多源下载互联网资源的装置及方法,本发明充分利用互联网的元搜索引擎技术来发现文件源地址,以减弱软件本身对中心服务器的依赖性和脱离服务被动选择的模式。一方面,利用各类搜索引擎的发展,提高文件下载地址的搜索效率。另一方面利用多源下载技术提供更快的稳定的下载服务。
为了达到上述目的,本发明提供了一种基于搜索引擎的多源下载互联网资源的装置,其特征在于,所述装置设有用户单元、叠加网单元、搜索单元与下载单元,其中:
用户单元,完成用户个性化的搜索参数与下载参数的设置,并提供用户操作接口界面和存储各种设置参数与文件,以及展示搜索到的供用户选择的下载地址列表和目标文件;设有四个模块:搜索设置模块、下载设置模块、用户界面模块和用户数据库;
叠加网单元,完成客户端加入对等网络P2P叠加网的操作,并维护和管理P2P叠加网的信息与用户文件,设有三个模块:初始化模块、信息维护模块和文件管理模块;
搜索单元,完成文件下载地址的搜索,设有定位型地址搜索模块和下载型地址搜索模块,其中定位型地址搜索模块根据用户单元获取的地址检索词搜索相关文件的下载地址,再通过用户单元的用户界面模块向用户展示;下载型地址搜索模块根据用户选择的、由定位型地址搜索模块提供的下载地址进行相同文件的其它地址的二次搜索,包括对P2P叠加网内共享文件的搜索;且在搜索地址过程中,根据可用性原则与优选原则对获取到的地址进行筛选;
下载单元,完成文件的下载操作,设有并行下载和资源合成的两个模块,并行下载模块根据获取文件下载地址的数量与文件大小对文件进行分块下载,其中文件下载地址是由下载型地址搜索模块提供的,并参照用户数据库中存储的下载参数执行下载过程;资源合成模块用于将并行下载模块获取的文件信息进行整合处理,形成完整的文件后,交由叠加网单元的文件管理模块进行存储。
所述用户单元中的各模块功能如下:
搜索设置模块,用于完成元搜索引擎所包括的各种搜索引擎、向用户显示的结果总数和每个搜索引擎的返回结果占本次搜索总条数的比例的各种搜索参数的选择和设置,并将设置的搜索参数存储于用户数据库;
下载设置模块,用于完成包括用户执行下载操作的网络类型、超级节点地址、下载或上传的传输带宽与速度限制,以及下载文件的分块原则的下载参数的选择和设置,并将设置的下载参数存储于用户数据库;
用户界面模块,用于提供用户人机交互界面,将用户的检索请求转换为搜索引擎所能理解的格式,根据检索内容选择合适的搜索引擎,并向用户展示搜索到的下载地址列表和目标文件;搜索设置模块和下载设置模块都是经由该用户界面模块接收用户输入的相关设置参数;
用户数据库,负责存储用户设置的各种搜索参数和下载参数,以及叠加网的路由表信息和下载的文件内容。
所述叠加网单元中的各模块功能如下:
初始化模块,利用用户数据库中保存的超级节点完成客户端加入P2P叠加网的入网操作,如果超级节点不可用,则利用用户数据库中保存的路由表内节点信息加入P2P叠加网;执行路由表的初始化和更新操作,再把更新后的路由表存储于用户数据库;所述路由表内存储有叠加网内的邻居节点信息;
信息维护模块,根据初始化后的路由表完成P2P叠加网内其他邻居节点的文件信息的维护和查找,以及本地文件信息的发布;
文件管理模块,完成客户端文件的存储及上传,并通过信息维护模块将文件信息在叠加网内进行发布。
所述下载型地址搜索模块在搜索下载型地址过程中,根据可用性原则与优选原则对获取到的下载或链接地址进行筛选,所述可用性原则是对获取的下载或链接地址是否能连通进行判断,如果不能连通,则表明不符合该原则,放弃该下载或链接地址;所述优选原则是根据下载型地址所对应的逻辑地址信息和连接的时间延迟进行优化。
为了达到上述目的,本发明还提供了一种采用基于元搜索引擎的多源下载互联网资源的装置的搜索方法,其特征在于:所述装置在用户的选择和操作下,利用元搜索引擎定位目标文件与进行同一资源的多个地址搜索,再通过多源下载技术进行目标资源的并行下载与整合处理;其中,资源的地址与搜索都是基于用户设置,以满足用户的个性化需求;所述方法包括下列操作步骤:
(1)用户单元根据用户输入完成搜索参数与下载参数的设置,并将设置的参数存储于用户数据库;
(2)完成客户端的P2P叠加网的入网和更新路由表;
(3)搜索单元将用户输入的检索词按照各个独立搜索引擎的要求格式分发出去,并根据该检索词搜索相关文件地址和收集返回的结果,然后将该返回结果转换成统一的格式;
(4)用户单元将用于定位下载文件的地址搜索结果列表展示,供用户选择;
(5)搜索单元根据用户选择的下载地址进行相同文件其他地址的二次搜索,并对搜索结果进行筛选,选择优化的下载地址;
(6)搜索单元根据所选择的优化的下载地址和设置的下载参数,执行多个文件地址的并行下载和文件整合的操作;
(7)在下载过程中和完成下载后,叠加网单元执行资源保存与文件共享信息发布的操作。
所述步骤(1)中的搜索参数与下载参数的设置操作是在下载之前完成的,或者是在下载过程中完成的;所述搜索参数包括:元搜索引擎所包括百度、谷歌、雅虎、必应的各种搜索引擎的类型、向用户显示的搜索结果的总条数和每个搜索引擎的返回结果所占的比例;所述下载参数包括:包括教育网、移动、联通、电信的执行下载的网络类型、超级节点地址、下载文件过程中的分块原则、下载的上行与下行的带宽和限制速度。
所述步骤(2)中的入网操作有两种方式:一种是利用在客户端固化的叠加网超级节点进行入网操作;另一种是用维护的邻居节点进行入网操作,后者作为前者的补充,仅用于叠加网超级节点不可用时。
所述步骤(3)进一步包括下列操作内容:
(31)基于用户选择的检索内容,采用分类分组法选择元搜索引擎中的搜索引擎:在元搜索引擎上增设一个信息类别选项,系统预先设置的该信息类别包括影音、图片、文档、软件与其他,再在各类别下分别列出供用户选择、设定的搜索引擎组合,以满足用户个性化需求,又避免不必要的搜索,提高搜索效率和准确度;
(32)将用户输入的检索词按照各个独立搜索引擎的要求格式分发出去;
(33)根据该检索词搜索相关文件地址,将收集到的各个成员搜索引擎的搜索结果转换为统一格式,再对其进行删除重复的处理。
所述步骤(5)中的二次搜索进一步包括下列操作内容:
(51)返回的搜索结果是普通的超文本标记语言HTML地址时,搜索单元通过分析关键词或网络爬虫获取供下载的资源链接地址;或
(52)返回的搜索结果是超文本传输协议http的资源下载地址、BT协议的资源链接地址时,提取这些下载地址或链接地址;
(53)根据可用性原则与优选原则对获取到的下载地址或链接地址进行筛选;所述可用性原则是对获取的下载地址或链接地址是否能连通进行判断,如果不能连通,则表明不符合该原则,放弃该下载地址或链接地址;优选原则是根据下载型地址所对应的逻辑地址信息和连接的时间延迟进行优化。
所述步骤(6)进一步包括下列操作内容:
(61)根据文件大小和步骤(1)中设置的下载文件的分块原则,设定满足一定冗余性的下载分块原则,并从对应链接独立进行文件分块下载;
(62)对下载完成的分块进行整合处理,在整合过程中进行数据校验。
本发明与现有技术相比的优势在于:
本发明是借鉴P2SP思路,基于元搜索引擎技术,充分获取并利用了互联网上大量的FTP服务器和文件服务器作为共享文件的提供中心,以P2P叠加网文件共享为辅助下载中心,为多源下载提供快捷、稳定的服务。
本发明通过元搜索引擎同时获取多个成员搜索引擎的搜索结果,并能够根据检索内容的不同,合理地选取相应的搜索引擎,从而提高了搜索结果的覆盖度和检索的准确性,降低了检索内容的重复率。
本发明装置的文件下载地址的发现是基于现有的搜索引擎,运行在客户端。因此,本发明基于元搜索引擎的互联网资源的多源下载装置脱离了对集中式多媒体检索数据库的依赖,能够最大限度地利用搜索引擎的发展,进行互联网下载应用;同时解决了搜索资源的覆盖面和下载源的稳定等问题。如果多个客户端组建构成P2P叠加网,本发明使得文件源的搜索能延伸到该网络,增加网络内部资源复用率。因此,本发明具有很好的推广应用前景。
附图说明
图1是本发明应用场景的网络系统结构组成示意图。
图2是本发明基于元搜索引擎的多源下载互联网资源的装置结构示意图。
图3是本发明装置的互联网资源多源下载方法的操作流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面结合附图对本发明作进一步的详细描述。
参见图1,介绍本发明基于元搜索引擎的多源下载互联网资源的装置的应用环境-网络系统结构组成。该系统分为三个部分:
利用BT协议组建的P2P叠加网,P2P网络中的各节点分别保留路由目录和共享其拥有的资源,各节点之间直接相连;叠加网内各个用户可以实现资源的共享。用户是通过查询搜索网络上存在的稳定资源,再下载链接得到相应文件数据。资源的下载为分块下载,加速资源获取,其优点是结合C/S与P2P网络的优势进行资源共享;不足是存在服务管理缺陷。
文件源为互联网内包括Web文件服务器、FTP文件服务器、流媒体服务器等能提供文件下载的服务器。
元搜索引擎包括的多个搜索引擎,各搜索引擎为节点提供文件下载地址的搜索应用。
参见图2,介绍本发明基于元搜索引擎的多源下载互联网资源的装置,该装置设有用户单元、叠加网单元、搜索单元与下载单元,其中:
用户单元完成用户个性化的搜索参数与下载参数的设置,获取用户文件地址的检索词,并提供用户操作接口界面和存储各种设置参数与文件,以及展示搜索到的供用户选择的下载地址列表和目标文件。设有四个模块:搜索设置模块、下载设置模块、用户界面模块和用户数据库;其中
搜索设置模块用于完成元搜索引擎所包括的各种搜索引擎、向用户显示的结果总数和每个搜索引擎的返回结果占本次搜索总条数的比例的各种搜索参数的选择和设置,并将设置的搜索参数存储于用户数据库;该模块的设置将作用于定位型地址搜索模块。
下载设置模块用于完成包括用户执行下载操作的网络类型、超级节点地址、下载或上传的传输带宽与速度限制,以及下载文件的分块原则的选择和设置,并将设置的下载参数存储于用户数据库;该模块的设置将作用于并行下载模块。
用户界面模块用于提供用户人机交互界面,将用户的用户文件地址检索词或文件下载地址的检索请求转换为搜索引擎所能理解的格式,并分别发送给定位型地址搜索模块与下载型地址搜索模块,使其根据检索内容选择合适的搜索引擎,并向用户展示搜索到的下载地址列表和目标文件;搜索设置模块和下载设置模块都是经由该界面接收用户输入的相关设置参数。
用户数据库负责存储用户设置的各种搜索参数和下载参数,以及叠加网的路由表信息和下载的文件内容。
叠加网单元完成客户端加入P2P叠加网的操作、并维护和管理P2P叠加网的信息与共享的用户文件。设有三个模块:初始化模块、信息维护模块和文件管理模块;其中,
初始化模块利用用户数据库中保存的超级节点完成客户端加入P2P叠加网的入网操作,如果超级节点不可用,则利用用户数据库中保存的路由表内节点信息加入P2P叠加网;执行路由表的初始化和更新操作,再把更新后的路由表存储于用户数据库;该路由表内存储有叠加网内的邻居节点信息,邻居节点为下载通信过程所发现的叠加网内的其他节点,邻居节点可以辅助客户端入网与客户端共享文件信息的发布。
信息维护模块是根据初始化后的路由表完成P2P叠加网内其他邻居节点的文件信息的维护和查找,以及本地文件共享信息的发布。
文件管理模块完成客户端文件的存储及上传,并通过信息维护模块将文件共享信息在叠加网内进行发布。
搜索单元完成文件下载地址的搜索。设有定位型地址搜索模块和下载型地址搜索模块,前者根据用户输入的地址检索词搜索相关文件的下载地址,再通过用户单元的用户界面模块向用户展示;后者根据用户选择的下载地址进行相同文件的其它地址的二次搜索,包括对P2P叠加网内共享文件的搜索;且在搜索地址过程中,根据可用性原则与优选原则对获取到的地址进行筛选。
下载单元完成文件的下载操作。设有并行下载和资源合成的两个模块,并行下载模块根据获取链接的数量与文件大小对文件进行分块下载,其中文件下载地址是由下载型地址搜索模块提供的,并参照用户数据库中存储的下载设置参数执行下载过程;资源合成模块用于将并行下载模块获取的文件信息进行整合处理,形成完整的文件后,交由叠加网单元的文件管理模块进行存储。
本发明基于元搜索引擎的多源下载互联网资源的装置的搜索方法是:在用户的选择和操作下,利用元搜索引擎定位目标文件与进行同一资源的多个地址搜索,再通过多源下载技术进行目标资源的并行下载与整合处理;其中,资源的地址与搜索都是基于用户设置,以满足用户的个性化需求。
参见图3,结合基于搜索引擎的互联网多源下载系统,介绍本发明一实施例的操作流程,其执行的操作步骤如下:
步骤1、用户单元根据用户输入完成搜索参数与下载参数的设置,并将设置的参数存储于用户数据库。
该步骤的搜索参数与下载参数的设置操作既可以在下载之前完成,也可以在下载过程中完成。设置的搜索参数包括:各种搜索引擎(百度、谷歌、雅虎、必应等)类型、搜索结果的总条数和每个搜索引擎的返回结果所占的比例。设置的下载参数包括:执行下载的网络类型(教育网、移动、联通、电信等)、超级节点地址、下载过程的文件分块原则、下载的上行与下行的带宽和限制速度。
步骤2、用户单元接收用户输入,完成客户端的P2P叠加网的入网和更新路由表。
该步骤的入网操作有两种方式:一种是利用在客户端固化的叠加网超级节点进行入网操作;另一种是用维护的邻居节点加入入网操作,后者作为前者的补充,仅用于叠加网超级节点不可用时。
步骤3、搜索单元将用户输入的检索词按照各个独立搜索引擎的要求格式分发出去,并根据该检索词搜索相关文件地址和收集返回的结果,然后将该返回结果转换成统一的格式。该步骤包括下列操作内容:
(31)基于用户选择的检索内容,采用分类分组法选择元搜索引擎中的搜索引擎:本发明在元搜索引擎上增设一个信息类别选项,系统预先设置的该信息类别包括影音、图片、文档、软件与其他,再在各类别下分别列出供用户选择、设定的搜索引擎组合,以满足用户个性化需求,又避免不必要的搜索,提高搜索效率和准确度。
(32)将用户输入的搜索词语按照各个独立搜索引擎的要求格式分发出去。
(33)根据该检索词搜索相关文件地址,将收集到的各个成员搜索引擎的搜索结果转换为统一格式,再对其进行删除重复的处理。
步骤4、用户单元将用于定位型文件地址的搜索结果列表,供用户选择。
步骤5、搜索单元根据用户选择的下载地址进行相同文件其他地址的二次搜索,并对搜索结果进行筛选,选择优化的下载地址。该步骤的定位地址二次搜索分为搜索引擎搜索与叠加网搜索,具体包括下列操作内容:
(51)返回的搜索结果是普通的超文本标记语言HTML地址时,搜索单元通过分析关键词或网络爬虫获取供下载的资源链接地址;或
(52)返回的搜索结果是超文本传输协议http资源下载地址、BT协议的资源链接地址时,提取这些下载地址或链接地址;
(53)根据可用性原则与优选原则对获取到的下载地址或链接地址进行筛选;这里的可用性原则是对获取的地址链接随机下载部分文件,如果链接不能连通,或者该部分文件与目标链接的对应文件块不对应,则表明不符合该原则,放弃该地址链接;优选原则是根据下载型地址所对应的逻辑地址信息和连接的时间延迟进行优化。
步骤6、搜索单元根据用户定位的下载地址和设置的下载参数,执行多个文件地址的并行下载和文件整合的操作。该步骤包括下列操作内容:
(61)根据文件大小和步骤1设置的下载文件的分块原则,设定满足一定冗余性的下载分块原则,并从对应链接独立进行文件分块下载。
(62)对下载完成的分块进行整合处理,在整合过程中进行数据校验。
步骤7、在下载过程中和完成下载后,叠加网单元执行资源保存与文件共享信息发布的操作。
本发明已经进行了多次实施试验,试验的结果是成功的,实现了发明目的。

Claims (10)

1.一种基于元搜索引擎的多源下载互联网资源的装置,其特征在于,所述装置设有用户单元、叠加网单元、搜索单元与下载单元,其中:
用户单元,完成用户个性化的搜索参数与下载参数的设置,并提供用户操作接口界面和存储各种设置参数与文件,以及展示搜索到的供用户选择的下载地址列表和目标文件;设有四个模块:搜索设置模块、下载设置模块、用户界面模块和用户数据库;
叠加网单元,完成客户端加入对等网络P2P叠加网的操作,并维护和管理P2P叠加网的信息与用户文件,设有三个模块:初始化模块、信息维护模块和文件管理模块;
搜索单元,完成文件下载地址的搜索,设有定位型地址搜索模块和下载型地址搜索模块,其中定位型地址搜索模块根据用户单元获取的地址检索词搜索相关文件的下载地址,再通过用户单元的用户界面模块向用户展示;下载型地址搜索模块根据用户选择的、由定位型地址搜索模块提供的下载地址进行相同文件的其它地址的二次搜索,包括对P2P叠加网内共享文件的搜索;且在搜索地址过程中,根据可用性原则与优选原则对获取到的地址进行筛选;
下载单元,完成文件的下载操作,设有并行下载和资源合成的两个模块,并行下载模块根据获取文件下载地址的数量与文件大小对文件进行分块下载,其中文件下载地址是由下载型地址搜索模块提供的,并参照用户数据库中存储的下载参数执行下载过程;资源合成模块用于将并行下载模块获取的文件信息进行整合处理,形成完整的文件后,交由叠加网单元的文件管理模块进行存储。
2.根据权利要求1所述的装置,其特征在于:所述用户单元中的各模块功能如下:
搜索设置模块,用于完成元搜索引擎所包括的各种搜索引擎、向用户显示的结果总数和每个搜索引擎的返回结果占本次搜索总条数的比例的各种搜索参数的选择和设置,并将设置的搜索参数存储于用户数据库;
下载设置模块,用于完成包括用户执行下载操作的网络类型、超级节点地址、下载或上传的传输带宽与速度限制,以及下载文件的分块原则的下载参数的选择和设置,并将设置的下载参数存储于用户数据库;
用户界面模块,用于提供用户人机交互界面,将用户的检索请求转换为搜索引擎所能理解的格式,根据检索内容选择合适的搜索引擎,并向用户展示搜索到的下载地址列表和目标文件;搜索设置模块和下载设置模块都是经由该用户界面模块接收用户输入的相关设置参数;
用户数据库,负责存储用户设置的各种搜索参数和下载参数,以及叠加网的路由表信息和下载的文件内容。
3.根据权利要求1所述的装置,其特征在于:所述叠加网单元中的各模块功能如下:
初始化模块,利用用户数据库中保存的超级节点完成客户端加入P2P叠加网的入网操作,如果超级节点不可用,则利用用户数据库中保存的路由表内节点信息加入P2P叠加网;执行路由表的初始化和更新操作,再把更新后的路由表存储于用户数据库;所述路由表内存储有叠加网内的邻居节点信息;
信息维护模块,根据初始化后的路由表完成P2P叠加网内其他邻居节点的文件信息的维护和查找,以及本地文件信息的发布;
文件管理模块,完成客户端文件的存储及上传,并通过信息维护模块将文件信息在叠加网内进行发布。
4.根据权利要求1所述的装置,其特征在于:所述下载型地址搜索模块在搜索下载型地址过程中,根据可用性原则与优选原则对获取到的下载或链接地址进行筛选,所述可用性原则是对获取的下载或链接地址是否能连通进行判断,如果不能连通,则表明不符合该原则,放弃该下载或链接地址;所述优选原则是根据下载型地址所对应的逻辑地址信息和连接的时间延迟进行优化。
5.一种采用权利要求1所述的基于元搜索引擎的多源下载互联网资源的装置的搜索方法,其特征在于:所述装置在用户的选择和操作下,利用元搜索引擎定位目标文件与进行同一资源的多个地址搜索,再通过多源下载技术进行目标资源的并行下载与整合处理;其中,资源的地址与搜索都是基于用户设置,以满足用户的个性化需求;所述方法包括下列操作步骤:
(1)用户单元根据用户输入完成搜索参数与下载参数的设置,并将设置的参数存储于用户数据库;
(2)完成客户端的P2P叠加网的入网和更新路由表;
(3)搜索单元将用户输入的检索词按照各个独立搜索引擎的要求格式分发出去,并根据该检索词搜索相关文件地址和收集返回的结果,然后将该返回结果转换成统一的格式;
(4)用户单元将用于定位下载文件的地址搜索结果列表展示,供用户选择;
(5)搜索单元根据用户选择的下载地址进行相同文件其他地址的二次搜索,并对搜索结果进行筛选,选择优化的下载地址;
(6)搜索单元根据所选择的优化的下载地址和设置的下载参数,执行多个文件地址的并行下载和文件整合的操作;
(7)在下载过程中和完成下载后,叠加网单元执行资源保存与文件共享信息发布的操作。
6.根据权利要求5所述的方法,其特征在于:所述步骤(1)中的搜索参数与下载参数的设置操作是在下载之前完成的,或者是在下载过程中完成的;所述搜索参数包括:元搜索引擎所包括百度、谷歌、雅虎、必应的各种搜索引擎的类型、向用户显示的搜索结果的总条数和每个搜索引擎的返回结果所占的比例;所述下载参数包括:包括教育网、移动、联通、电信的执行下载的网络类型、超级节点地址、下载文件过程中的分块原则、下载的上行与下行的带宽和限制速度。
7.根据权利要求5所述的方法,其特征在于:所述步骤(2)中的入网操作有两种方式:一种是利用在客户端固化的叠加网超级节点进行入网操作;另一种是用维护的邻居节点进行入网操作,后者作为前者的补充,仅用于叠加网超级节点不可用时。
8.根据权利要求5所述的方法,其特征在于:所述步骤(3)进一步包括下列操作内容:
(31)基于用户选择的检索内容,采用分类分组法选择元搜索引擎中的搜索引擎:在元搜索引擎上增设一个信息类别选项,系统预先设置的该信息类别包括影音、图片、文档、软件与其他,再在各类别下分别列出供用户选择、设定的搜索引擎组合,以满足用户个性化需求,又避免不必要的搜索,提高搜索效率和准确度;
(32)将用户输入的检索词按照各个独立搜索引擎的要求格式分发出去;
(33)根据该检索词搜索相关文件地址,将收集到的各个成员搜索引擎的搜索结果转换为统一格式,再对其进行删除重复的处理。
9.根据权利要求5所述的方法,其特征在于:所述步骤(5)中的二次搜索进一步包括下列操作内容:
(51)返回的搜索结果是普通的超文本标记语言HTML地址时,搜索单元通过分析关键词或网络爬虫获取供下载的资源链接地址;或
(52)返回的搜索结果是超文本传输协议http的资源下载地址、BT协议的资源链接地址时,提取这些下载地址或链接地址;
(53)根据可用性原则与优选原则对获取到的下载地址或链接地址进行筛选;所述可用性原则是对获取的下载地址或链接地址是否能连通进行判断,如果不能连通,则表明不符合该原则,放弃该下载地址或链接地址;优选原则是根据下载型地址所对应的逻辑地址信息和连接的时间延迟进行优化。
10.根据权利要求5所述的方法,其特征在于:所述步骤(6)进一步包括下列操作内容:
(61)根据文件大小和步骤(1)中设置的下载文件的分块原则,设定满足一定冗余性的下载分块原则,并从对应链接独立进行文件分块下载;
(62)对下载完成的分块进行整合处理,在整合过程中进行数据校验。
CN200910241934A 2009-12-16 2009-12-16 基于元搜索引擎的多源下载互联网资源的装置及方法 Expired - Fee Related CN101764807B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN200910241934A CN101764807B (zh) 2009-12-16 2009-12-16 基于元搜索引擎的多源下载互联网资源的装置及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN200910241934A CN101764807B (zh) 2009-12-16 2009-12-16 基于元搜索引擎的多源下载互联网资源的装置及方法

Publications (2)

Publication Number Publication Date
CN101764807A CN101764807A (zh) 2010-06-30
CN101764807B true CN101764807B (zh) 2012-09-05

Family

ID=42495792

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200910241934A Expired - Fee Related CN101764807B (zh) 2009-12-16 2009-12-16 基于元搜索引擎的多源下载互联网资源的装置及方法

Country Status (1)

Country Link
CN (1) CN101764807B (zh)

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102480524B (zh) * 2010-11-26 2014-09-10 中国科学院声学研究所 一种网页爬虫协作方法
CN103257972B (zh) * 2012-02-20 2017-12-15 腾讯科技(深圳)有限公司 一种下载任务的处理方法及装置
CN103593365A (zh) * 2012-08-16 2014-02-19 江苏新瑞峰信息科技有限公司 一种基于互联网的实时更新专利数据库装置
CN102867043A (zh) * 2012-09-05 2013-01-09 中山爱科数字家庭产业孵化基地有限公司 一种数字家庭资源检索和资源获取方法
CN103067521B (zh) * 2013-01-08 2016-08-17 中国科学院声学研究所 一种分布式爬虫集群中的节点和系统
US9600441B2 (en) * 2013-03-11 2017-03-21 Samsung Electronics Co., Ltd. Apparatus and method for controlling network access for applications on mobile terminals
CN103686430A (zh) * 2013-12-24 2014-03-26 中国联合网络通信集团有限公司 视频文件获取方法及装置
CN105095320B (zh) * 2014-05-23 2019-04-19 邓寅生 基于关系叠加组合的文档的标识、关联、搜索及展现的系统
CN105656967A (zh) * 2014-11-20 2016-06-08 中兴通讯股份有限公司 微波设备版本批量下载方法及装置
CN105045855A (zh) * 2015-07-08 2015-11-11 中国人民解放军理工大学 多源分布式多媒体汇报材料自动生成方法及系统
CN106021248A (zh) * 2015-09-16 2016-10-12 展视网(北京)科技有限公司 一种元搜索引擎相关的视频文件下载系统及方法
CN106888239A (zh) * 2015-12-16 2017-06-23 天脉聚源(北京)科技有限公司 一种p2p文件自定义下载方法及系统
CN108111553B (zh) * 2016-11-24 2020-12-25 腾讯科技(深圳)有限公司 提供服务的方法及装置
CN106850778B (zh) * 2017-01-17 2020-10-23 无锡清华信息科学与技术国家实验室物联网技术中心 一种多源下载性能优化方法及装置
CN107832136A (zh) * 2017-11-28 2018-03-23 广州启生信息技术有限公司 一种网络爬虫程序的管理方法及装置
CN109347968B (zh) * 2018-11-07 2021-09-24 网宿科技股份有限公司 一种下载资源文件的数据块的方法、设备和系统
US11281640B2 (en) * 2019-07-02 2022-03-22 Walmart Apollo, Llc Systems and methods for interleaving search results
CN113157996B (zh) * 2020-01-23 2022-09-16 久瓴(上海)智能科技有限公司 文档信息处理方法、装置、计算机设备及可读存储介质
CN113778673B (zh) * 2021-08-27 2024-02-09 深圳市广和通无线股份有限公司 数据处理方法、存储介质及设备
CN115086304B (zh) * 2022-07-08 2024-04-19 甘肃省气象信息与技术装备保障中心 一种基于ftp协议的多源分布式下载系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1808426A (zh) * 2005-01-17 2006-07-26 马岩 一种通用的文件搜索系统及方法
CN101046806A (zh) * 2006-03-30 2007-10-03 腾讯科技(深圳)有限公司 搜索引擎系统和方法
CN101291304A (zh) * 2008-06-13 2008-10-22 清华大学 可移植的网络信息共享方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1808426A (zh) * 2005-01-17 2006-07-26 马岩 一种通用的文件搜索系统及方法
CN101046806A (zh) * 2006-03-30 2007-10-03 腾讯科技(深圳)有限公司 搜索引擎系统和方法
CN101291304A (zh) * 2008-06-13 2008-10-22 清华大学 可移植的网络信息共享方法

Also Published As

Publication number Publication date
CN101764807A (zh) 2010-06-30

Similar Documents

Publication Publication Date Title
CN101764807B (zh) 基于元搜索引擎的多源下载互联网资源的装置及方法
JP4938074B2 (ja) リソースの位置情報の要求方法、当該方法のためのユーザノードおよびサーバ
US8140645B2 (en) Index server support to file sharing applications
CN110417916A (zh) 能够回馈收益的内容分发方法、中心节点及边缘节点
CN101420337A (zh) 一种资源定位的方法、装置和索引服务器
CN104967677B (zh) 一种基于ndn缓存优化的文件传输方法以及装置
CN101640623A (zh) 在对等网络中搜索资源的方法和设备
CN102420864B (zh) 一种面向海量数据的数据交换方法
EP2106086A1 (en) Method for managing requests for obtaining peer identifiers to access stored contents in p2p mode, and associated management device and network equipment
CN100473007C (zh) 内容交换网络
CN101741869B (zh) 提供内容的方法和系统
CN101494664B (zh) 基于jxta的p2p推式网络存储方法
CN106021248A (zh) 一种元搜索引擎相关的视频文件下载系统及方法
Chung et al. Direction-aware resource discovery in large-scale distributed computing environments
Borch Social peer-to-peer for social people
Gu et al. A peer-to-peer architecture for context lookup
Chen et al. Self-learning routing in unstructured P2P network
KR100545744B1 (ko) 클러스터링 환경에서의 모바일 비즈니스 응용 서버간 콘텐츠 캐시 동기화 방법
Baydeti et al. Scalable Models for Redundant Data Flow Analysis in Online Social Networks
Chan et al. Malugo: A peer-to-peer storage system
Chen et al. A hybrid peer-to-peer architecture for global geospatial web service discovery
Gatani et al. Notice of Violation of IEEE Publication Principles: An adaptive routing mechanism for P2P resource discovery
Achir et al. Distributed architecture for resource description and discovery in the IoT
Abdel Ghafar et al. Multidimensional Self-Organizing Chord-Based Networking for Internet of Things
CN102402587B (zh) 一种在对等网络中建立索引的方法、装置与系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20120905

Termination date: 20151216

EXPY Termination of patent right or utility model