具体实施方式
下面结合附图对本发明作进一步详细描述。
图1为根据本发明一个方面的系统拓扑图,示出对等网络中的第一节点和第二节点配合实现建立索引的系统。其中,该系统包括多个第一节点10以及多个与之经由网络相连接的第二节点20。具体地,一个第一节点10可与多个第二节点20经由网络相连接,第二节点20获取第一级资源爬取任务,并根据所述第一级资源爬取任务进行资源爬取,以建立与所述第一级资源爬取任务相对应的第二索引,并发送所述第二索引至对应的至少一第一节点10;相应地,对应的第一节点10接收自至少一第二节点20发送的至少一第二索引,并对所述至少一第二索引进行优选,以建立与所述第二索引相对应的第一索引。
在此,“网络”包括但不限于电信网络、有线电视网络、计算机网络等各种网络;其中,计算机网络是用通信线路和通信设备将分布在不同地点的多台自治计算机系统互相连接起来,按照共同的网络协议,共享硬件、软件和数据资源的系统。为简化说明起见,本发明以计算机网络为例对网络进行阐述,尤其以因特网为例予以说明,然而,本领域的技术人员应能理解,该种举例仅为简便地阐述本发明之用,而不应理解为对本发明的任何限制。
此外,第一节点10和第二节点20包括但不限于接入网络中的任何网络设备或用户设备,其中,网络设备包括但不限于网络主机、单个网络服务器、多个网络服务器集或基于云计算的计算机集合,在此,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个超级虚拟计算机;用户设备包括但不限于任何一种能与用户进行交互的电子产品,例如计算机、手机、PDA、平板电脑、PSP、掌上电脑PPC等。
进一步地,第一节点10与第二节点20通过点对点或对等(Peer toPeer;P2P)协议通信,从而第一节点10与第二节点20更组成对等网络。具体地,第一节点10与第二节点20可通过如Skype与Coolstream等平台进行通信和/或交互,又或是通过例如Napster、Gnotella、Freenet、CAN、eDonkey、eMule、BitTorrent等对等协议进行通信,实现资源共享或交互。然而,本领域的技术人员应能理解,本发明中,第一节点10与第二节点20组成对等网络,并通过对等协议通信,并不限于上述举例的各种协议,其他现有的或今后可能出现的基于对等网络的通信或传输协议、和/或组网模式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
本领域技术人员应能理解上述第一节点、第二节点以及连接其间的网络及通信方式仅为举例,其他现有的或今后可能出现的第一节点、第二节点、或者连接其间的网络、或者通信方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
本领域技术人员还应能理解,图1中仅为简明起见而示出的各类网络元素的数量可能小于一个实际网络中的数量,但这种省略无疑地是以不会影响对本发明进行清楚、充分的公开为前提的。
为简明起见,下面以一个第一节点10、多个第二节点20组成的系统为例进行描述。本领域技术人员应能理解,多个第一节点10中的每一个可以同时与其对应的多个第二节点20交互。具体地,一个第一节点10可与多个第二节点20经由对等协议相连接,多个第二节点20分别获取第一级资源爬取任务,并根据所述第一级资源爬取任务进行资源爬取,以建立与所述第一级资源爬取任务相对应的第二索引;多个节点20还分别发送所述第二索引至与其对应连接的至少一个第一节点10,相应地,对应的第一节点10接收自多个第二节点20分别发送的第二索引,并对所述多个第二索引进行优选,以建立与所述第二索引相对应的第一索引。在本发明中,所述优选,包括但不限于对所述多个第二索引进行排序、筛选、去重、合并、和/或对所述第二索引中的资源信息进行权值调整等。本领域的技术人员应能理解,上述处理方式仅为举例说明优选之方式,而并不应理解为对本发明的任何限制。
图2为根据本发明一个方面的装置示意图,示出对等网络中配合实现建立索引的第一节点和第二节点。其中,第一节点10与至少一个第二节点20通过对等网络通信或交互。在本发明的一个优选实施例中,所述第一节点10通过对等协议与所述第二节点20组成/或加入对等网络,并通过所述对等协议通信或交互;其中,所述对等协议包括但不限于基于Skype与Coolstream的平台进行通信或交互,以及如Napster、Gnotella、Freenet、CAN、eDonkey、eMule、BitTorrent等协议。然而,本领域技术人员应能理解,本发明所述对等协议并不限于上述举例的各种协议,其他现有的或今后可能出现的基于对等网络的通信或传输协议、和/或组网模式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
优选地,第一节点10可通过对等协议与多个第二节点20通信和/或交互。为简明阐述起见,本实施例中仅以一个第一节点10与一个第二节点20为例予以说明。但是,本领域技术人员应能理解,在本发明的其他实施方式中,多个第一节点10中的每一个可以同时与其对应的多个第二节点20交互。
具体地,第一节点10包括第一索引接收装置211和第一索引处理装置212,第二节点20包括第二任务获取装置221、第二索引建立装置222和第二索引发送装置223。更具体地,第二节点20的第二任务获取装置221获取第一级资源爬取任务;接着,第二索引建立装置222根据所述第一级资源爬取任务进行资源爬取,以建立与所述第一级资源爬取任务相对应的第二索引;随后,第二索引发送装置223将所述第二索引发送至第一节点10,相应地,第一节点10的第一索引接收装置211接收自第二节点20发送的第二索引;接着,第一索引处理装置212对所述第二索引进行优选,以建立与所述第二索引相对应的第一索引。
具体地,第二节点20的第二任务获取装置221获取第一级资源爬取任务。在此,所述第一级资源爬取任务可以来自用户或者来自第一节点10,所述第一级资源爬取任务包括但不限于爬取特定的资源、爬取包括特定资源的网页、或者爬取特定网络节点等。例如,用户经由键盘向第二节点20输入第一级资源爬取任务,如爬取包括特定关键字的新闻资源,指向、包括和/或链接至该新闻资源的网页和/或网络节点;相应地,第二节点20的第二任务获取装置221通过接收该用户输入的该第一级资源爬取任务获取相应的第一级资源爬取任务。在此,本领域技术人员应能理解,本发明所述的网络资源以及获取第一级资源爬取任务的方式,并不限于前文所列举之资源,所有存储于现有网络中的各种资源以及网页链接,或者获取第一级资源爬取任务的方式,均不脱离本发明之范畴。
第二节点20的第二索引建立装置222根据第二任务获取装置221获取的第一级资源爬取任务进行资源爬取,并建立与所述第一级资源爬取任务相对应的第二索引。在此,第二索引建立装置222进行资源爬取的操作可以通过网络爬取工具,诸如网络爬虫(crawler)、网络蜘蛛(spider)或者机器人(robot)等执行。所述第二索引包括但不限于资源的关键字信息以及资源的地址信息;在本发明的其他实施例中,所述第二索引还可以进一步包括其他附加信息,诸如所述资源来源的权威度信息、所述资源的更新时间信息以及所述资源的用户访问量信息等。为简明起见,本发明仅以所述第二索引包括资源的关键字信息以及资源的地址信息为例予以说明。举例而言,第二任务获取装置201获取的第一级资源爬取任务为爬取特定的多媒体影音资源,如影片《乱世佳人》,指向或包括《乱世佳人》的网页,以及存储《乱世佳人》的网络节点;第二索引建立装置202依据所述第一级资源爬取任务爬取指向或包括《乱世佳人》的网页,和/或储存《乱世佳人》的网络节点,并建立第二索引,如下表一所示:
关键字 |
地址 |
乱世佳人 |
www.aaa.com |
乱世佳人 |
www.bbb.com |
乱世佳人 |
www.ccc.com |
乱世佳人 |
节点A地址 |
乱世佳人 |
节点B地址 |
乱世佳人 |
节点C地址 |
...... |
...... |
表一:第二索引示例
本领域技术人员应能理解,本发明所述的网络爬取工具、建立第二索引的方式以及第二索引的内容,仅为举例阐明本发明之目的,而并不应理解为对本发明的任何限制。
第二节点20的第二索引发送装置223将第二索引建立装置222建立的第二索引发送至第一节点10。相应地,第一节点10的第一索引接收装置211接收自第二节点20发送的所述第二索引。
优选地,第二索引发送装置223还对所述第二索引进行筛选,以获得筛选后的第二索引,并将所述筛选后的第二索引发送至第一节点10。在此,第二索引发送装置223对所述第二索引进行筛选的条件包括但不限于根据所述第二索引中资源的资源属性和/或所述第二节点的爬取性能对所述第二索引进行筛选,其中,所述资源的资源属性包括但不限于所述资源的来源权威度、所述资源的更新时间或者所述资源的用户访问量等,所述第二节点的资源爬取性能包括但不限于所述第二节点的爬取频度、所述第二节点的爬取深度、所述第二节点的爬取广度等。例如,设定筛选条件为根据所述第二索引中资源的用户访问量对所述第二索引进行筛选,以获得包括对应用户访问量较大的所述资源的第二索引,请配合参阅表一,第二索引建立装置222建立的第二索引包括《乱世佳人》的网页链接地址以及网络节点地址,如果来源于网页链接的《乱世佳人》的用户访问量大于来源于网络节点的《乱世佳人》的用户访问量,第二索引发送装置223筛选出包括所述网页链接地址的索引条目,以获得筛选后的第二索引,并将所述筛选后的第二索引发送至第一节点10;相应地,第一节点10的第一索引接收装置211接收来自第二节点20的经第二索引发送装置223筛选后的第二索引。本领域技术人员应能理解,本发明中对所述第二索引进行筛选的条件以及对所述第二索引进行筛选的方式,仅为举例阐明本发明之目的,而并不应理解为对本发明的任何限制。
第一节点10的第一索引处理装置212对所述第二索引进行优选,以建立与所述第二索引相对应的第一索引。在此,所述优选包括但不限于对所述第二索引进行排序、筛选、去重、合并,和/或对所述第二索引中的资源信息进行权值调整等。例如,请配合参阅表一,第一索引处理装置212对表一所示的第二索引进行筛选,如筛选出包括《乱世佳人》的网页链接地址以及最邻近第一节点10的存储有《乱世佳人》网络节点(如节点A),以建立与所述第二索引相对应的第一索引,所述第一索引如表二所示:
关键字 |
地址 |
乱世佳人 |
www.aaa.com |
乱世佳人 |
节点A地址 |
...... |
...... |
表二:第一索引示例
本领域技术人员应能理解,本发明所述的对第二索引进行优选以建立第一索引的方式,仅为举例阐明本发明之目的,而并不应理解为对本发明的任何限制。
图3为根据本发明一个优选实施例的装置示意图,示出对等网络中配合实现建立索引的第一节点和第二节点。其中,第一节点10与至少一个第二节点20通过对等网络通信或交互。
具体地,在本实施例中,第一节点10包括第一索引接收装置311、第一索引处理装置312、第一任务获取装置313和第一任务处理装置314;第二节点20包括第二任务获取装置321、第二索引建立装置322和第二索引发送装置323。更具体地,第一节点10的第一任务获取装置313获取资源爬取任务;随后,第一任务处理装置314将所述资源爬取任务作为第一级资源爬取任务发送至第二节点20,相应地,第二节点20的第二任务获取装置321获取所述第一级资源爬取任务;接着,第二索引建立装置322根据所述第一级资源爬取任务进行资源爬取,以建立与所述第一级资源爬取任务相对应的第二索引;随后,第二索引发送装置323将所述第二索引发送至第一节点10,相应地,第一节点10的第一索引接收装置311接收自第二节点20发送的基于所述第一级资源爬取任务的第二索引;接着,第一索引处理装置312对所述第二索引进行优选,以建立与所述第二索引相对应的第一索引。
在本实施例中,第二节点20的第二任务获取装置321、第二索引建立装置322和第二索引发送装置323分别与图2所示的第二任务获取装置221、第二索引建立装置222和第二索引发送装置223所执行的步骤与功能基本相同,为简明起见,以引用方式包含于此,不再赘述。
第一节点10的第一索引接收装置311、第一索引处理装置312分别与图2所示的第一索引接收装置211、第一索引处理装置212所执行的步骤与功能基本相同,为简明起见,以引用方式包含于此,亦不赘述。
本实施例中,第一节点10的第一任务获取装置313获取资源爬取任务。在此,所述资源爬取任务可以来自用户或者来自其他网络设备或用户设备,所述资源爬取任务包括但不限于爬取特定的资源,和/或爬取包括特定资源的网页,或者爬取网络节点。例如,用户向第一节点10输入资源爬取任务,如爬取特定多媒体影音资源、指向、包括和/或链接至该多媒体影音资源的网页,和/或存储该多媒体影音资源的网络节点;相应地,第一任务获取装置313通过接收该用户输入的该资源爬取任务获取该资源爬取任务。在此,本领域技术人员应能理解,本发明所述的网络资源以及获取资源爬取任务的方式,并不限于前文所列举之资源,所有存储于现有网络中的各种资源以及网页链接,或者获取资源爬取任务的方式,均不脱离本发明之范畴。
举例而言,第一节点10的第一任务获取装置313获取用户输入的资源爬取任务,如爬取影片《乱世佳人》和《飘》,包括《乱世佳人》或《飘》的网页,以及存储《乱世佳人》和/或《飘》的网络节点;第一任务处理装置314将该资源爬取任务作为第一级资源爬取任务发送至第二节点20;第二节点20的第二任务获取装置321接收该第一级资源爬取任务;第二索引建立装置322根据该第一级资源爬取任务进行资源爬取,并建立如表一所示的第二索引;第二索引发送装置323将该第二索引发送至第一节点10;第一节点10的第一索引接收装置311接收该第二索引;第一索引处理装置312对该第二索引进行优选,建立如表二所示的第一索引。
在本实施例的一个优选示例中,第一节点10还包括第一索引更新装置315。第一索引更新装置315根据第一任务获取装置313获取的资源爬取任务进行资源爬取,以获得与所述资源爬取任务相对应的资源更新信息,并根据所述资源更新信息,更新第一索引处理装置312建立的第一索引。在此,所述资源更新信息可以索引形式建立,如表三所示:
关键字 |
地址 |
乱世佳人 |
www.xxx.com |
乱世佳人 |
www.yyy.com |
乱世佳人 |
节点X地址 |
飘 |
www.zzz.com |
飘 |
节点Y地址 |
飘 |
节点Z地址 |
...... |
...... |
表三:资源更新信息示例
第一索引更新装置315还通过如将所述资源更新信息与所述第一索引合并等方式,更新所述第一索引,更新后的第一索引如表四所示:
关键字 |
地址 |
乱世佳人 |
www.aaa.com |
乱世佳人 |
www.xxx.com |
乱世佳人 |
www.yyy.com |
乱世佳人 |
节点A地址 |
乱世佳人 |
节点X地址 |
飘 |
www.zzz.com |
飘 |
节点Y地址 |
飘 |
节点Z地址 |
...... |
...... |
表四:更新后的第一索引示例
需要说明的是,本领域技术人员应能理解,第一索引更新装置215根据资源爬取任务获得资源更新信息的操作,与第一任务处理装置314发送所述资源爬取任务的操作、第一索引接收装置311接收自第二节点20发送的第二索引的操作,以及第一索引处理装置312基于所述第二索引建立第一索引的操作之间不具有顺序关系,第一索引更新装置315可以在第一任务处理装置314、第一索引接收装置311以及第一索引处理装置312执行相应操作之前、之中或者之后执行根据资源爬取任务获得资源更新信息的操作。
在本实施例的另一优选示例中,第一节点10的第一任务获取装置313获得资源爬取任务;第一任务处理装置314对所述资源爬取任务进行拆分,以获得与所述资源爬取任务相对应的资源爬取子任务,并将所述资源爬取子任务作为第一级资源爬取任务发送至第二节点20;相应的,第二节点20的第二任务获取装置321接收所述资源爬取子任务,亦即第一级资源爬取任务;第二索引建立装置322根据所述第一级资源爬取任务进行资源爬取,以建立与所述第一级资源爬取任务相对应的第二索引;第二索引发送装置323将所述第二索引发送至第一节点10,相应地,第一节点10的第一索引接收装置311接收自第二节点20发送的基于所述资源爬取子任务建立的第二索引;第一索引处理装置312对所述第二索引进行优选,以建立与所述第二索引相对应的第一索引。
其中,第一任务处理装置314至少可从两个维度对所述资源爬取任务进行拆分:1)从所述资源爬取任务的相关属性对所述资源爬取任务进行拆分,所述资源爬取任务的相关属性包括但不限于所述资源爬取任务的内容、数量、种类等;2)从第二节点20的相关属性对资源爬取任务进行拆分,所述第二节点20的相关属性包括但不限于所述第二节点的数量、资源爬取性能等。
举例而言,当按照资源爬取任务的内容对所述资源爬取任务进行拆分时,例如,所述资源爬取任务是爬取特定的多媒体影音资源,如影片《乱世佳人》和《飘》以及指向或包括《乱世佳人》和《飘》的网页或节点;第一任务处理装置314对所述资源爬取任务按照其内容《乱世佳人》与《飘》进行拆分后,发送给对应的部分第二节点20的第一级资源爬取任务,亦即资源爬取子任务,为爬取多媒体影音资源《乱世佳人》,以及指向或包括《乱世佳人》的网页或节点,发送给对应的其他第二节点20的第一级资源爬取任务为爬取多媒体影音资源《飘》,以及指向或包括《飘》的网页或节点。在此,本领域技术人员应能理解,本发明举例的对资源爬取任务进行拆分所依据的条件,仅为阐明本发明之目的,而不应理解为对本发明的任何限制。本领域技术人员应能了解,本实施例中所列举之索引建立与更新方式,均系为简明阐述本发明之目的,而不应理解为对本发明的任何限制或限定。任何依照本实施例所阐述之建立、更新索引之方式,均不脱离本发明之范畴。
图4为根据本发明另一个优选实施例的装置示意图,示出对等网络中配合实现建立索引及进行搜索的第一节点和第二节点。其中,第一节点10与至少一个第二节点20通过对等网络通信或交互。
具体地,在本实施例中,第一节点10包括第一索引接收装置411、第一索引处理装置412、第一任务获取装置413、第一任务处理装置414、第一索引更新装置415以及第一搜索装置416;第二节点20包括第二任务获取装置421、第二索引建立装置422、第二索引发送装置323。更具体地,第一节点的第一任务获取装置413获取资源爬取任务;第一任务处理装置414将所述资源爬取任务作为第一级资源爬取任务发送至第二节点20,相应地,第二节点20的第二任务获取装置421获取所述第一级资源爬取任务;接着,第二索引建立装置422根据所述第一级资源爬取任务进行资源爬取,以建立与所述第一级资源爬取任务相对应的第二索引;随后,第二索引发送装置423将所述第二索引发送至第一节点10,相应地,第一节点10的第一索引接收装置411接收自第二节点20发送的基于所述第一级资源爬取任务的第二索引;接着,第一索引处理装置412对所述第二索引进行优选,以建立与所述第二索引相对应的第一索引;第一索引更新装置415根据所述资源爬取任务进行资源爬取,以建立与所述资源爬取任务相对应的资源更新信息,并根据所述资源更新信息,更新所述第一索引;第一搜索装置416获取搜索指令,根据所述搜索指令搜索所述第一索引,以获取与所述搜索指令对应的第一搜索结果。
请参阅图3与图4,图4所示的第一节点10中的第一索引接收装置411、第一索引处理装置412、第一任务获取装置413、第一任务处理装置414和第一索引更新装置415分别与图3所示的第一节点10中的第一索引接收装置311、第一索引处理装置312、第一任务获取装置313、第一任务处理装置314和第一索引更新装置315执行的基本步骤与功能基本相同,为简明起见,以引用方式包含于此,不再赘述。
图4所示的第二节点20的第二任务获取装置421、第二索引建立装置422和第二索引发送装置423分别与图3所示的第二节点20的第二任务获取装置321、第二索引建立装置322和第二索引发送装置323执行的基本步骤与功能基本相同,为简明起见,以引用方式包含于此,亦不赘述。
如图4所示,第一节点10的第一搜索装置416获取搜索指令,并根据所述搜索指令搜索所述第一索引,以获取与所述搜索指令相对应的第一搜索结果。在此,所述搜索指令可以来自用户或者来自其他网络设备或用户设备。优选地,第一搜索装置416根据所述搜索指令进行搜索的第一索引包括第一索引处理装置412建立的第一索引和第一索引更新装置415更新的第一索引。例如,请同时参阅表一、表二、表三以及表四,当第一搜索装置416接收来自用户的搜索指令,要求搜索一定范围内,所有指向或包括特定媒体资源《乱世佳人》以及《飘》的网页链接与节点地址,并根据所述搜索指令搜索如表四所示的更新后的第一索引,获得第一搜索结果,所述第一搜索结果包括如表四所示的网页链接和/或节点的地址信息。本领域技术人员应当了解,此处所列举之搜索指令及搜索方式,仅为简明阐述本发明之目的,而不应理解为对本发明的任何限制。
进一步地,在该实施例的一个优选示例中,第二节点20还包括第二搜索装置424。第一节点的第一搜索装置416发送所述搜索指令至第二节点20;相应地,第二节点20的第二搜索装置424接收自第一节点10发送的所述搜索指令,并根据所述搜索指令搜索所述第二索引,以获取与搜索指令相对应的第二搜索结果,发送所述第二搜索结果至第一节点10;相应地,第一搜索装置416接收自第二节点20发送的基于所述搜索指令的第二搜索结果,并根据所述第二搜索结果,更新所述第一搜索结果。例如,请同时参阅表一、表二、表三以及表四,当第二搜索装置424接收来自第一节点10的搜索指令,要求搜索一定范围内,所有指向或包括特定媒体资源《乱世佳人》以及《飘》的网页链接与节点地址,并根据所述搜索指令搜索如表一所示的第二索引,获得第二搜索结果,并将所述第二搜索结果发送至第一节点10,其中,所述第二搜索结果包括如表一所示的网页(a、b、c)的链接地址和节点A、B、C的地址;第一搜索装置416接收所述第二搜索结果,如果第一搜索结果包括如表四所示的网页(x、y、z)的链接地址和/或节点X、Y、Z的地址,则第一搜索装置416依据所述第二搜索结果将所述第一搜索结果更新为包括网页(a、b、c、x、y、z)的链接地址以及节点A、B、C、X、Y、Z的地址。本领域技术人员应当了解,此处所列举之搜索指令及搜索方式,以及获得并更新搜索结果之方式,仅为简明阐述本发明之目的,而不应理解为对本发明的任何限制。
需要说明的是,本领域技术人员应能理解,在该实施例中,第一搜索装置416可以仅搜索第一节点10的第一索引,并根据所述第一索引获得相应的第一搜索结果,而无需将所述搜索指令发送至第二节点20,接收第二节点20返回的基于所述搜索指令的第二搜索结果,并根据所述第二搜索结果,更新所述第一搜索结果。第一搜索装置416将所述搜索指令发送至第二节点20,并接收所述第二搜索结果,以更新所述第一搜索结果的操作,可作为该实施例的一个优选示例,用于阐述本发明之目的,以获得与所述搜索指令相对应的更好的搜索结果,而不应理解为对本发明的任何限制。
图5为根据本发明一个方面的方法流程图,示出用于对等网络中第一节点和第二节点配合实现建立索引的过程。其中,第一节点10与至少一个第二节点20通过对等网络通信或交互。在本发明的一个优选实施例中,所述第一节点10通过对等协议与所述第二节点20组成/或加入对等网络,并通过所述对等协议通信或交互;其中,所述对等协议包括但不限于基于Skype与Coolstream的平台进行通信或交互,以及如Napster、Gnotella、Freenet、CAN、eDonkey、eMule、BitTorrent等协议。然而,本领域技术人员应能理解,本发明所述对等协议并不限于上述举例的各种协议,其他现有的或今后可能出现的基于对等网络的通信或传输协议、和/或组网模式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
优选地,第一节点10可通过对等协议与多个第二节点20通信和/或交互。为简明阐述起见,本实施例中仅以一个第一节点10与一个第二节点20为例予以说明。但是,本领域技术人员应能理解,在本发明的其他实施方式中,多个第一节点10中的每一个可以同时与其对应的多个第二节点20交互。
具体地,在步骤S501中,第二节点20获取第一级资源爬取任务;接着,在步骤S502中,第二节点20根据所述第一级资源爬取任务进行资源爬取,以建立与所述第一级资源爬取任务相对应的第二索引;随后,在步骤S503中,第二节点20将所述第二索引发送至第一节点10,相应地,第一节点10接收自第二节点20发送的第二索引;接着,在步骤S504中,第一节点10对所述第二索引进行优选,以建立与所述第二索引相对应的第一索引。
更具体地,在步骤S501中,第二节点20获取第一级资源爬取任务。在此,所述第一级资源爬取任务可以来自用户或者来自第一节点10,所述第一级资源爬取任务包括但不限于爬取特定的资源、爬取包括特定资源的网页、或者爬取特定网络节点等。例如,用户经由键盘向第二节点20输入第一级资源爬取任务,如爬取包括特定关键字的新闻资源,指向、包括和/或链接至该新闻资源的网页和/或网络节点;相应地,第二节点20通过接收该用户输入的该第一级资源爬取任务获取相应的第一级资源爬取任务。在此,本领域技术人员应能理解,本发明所述的网络资源以及获取第一级资源爬取任务的方式,并不限于前文所列举之资源,所有存储于现有网络中的各种资源以及网页链接,或者获取第一级资源爬取任务的方式,均不脱离本发明之范畴。
在步骤S502中,第二节点20根据其在步骤S501中获取的第一级资源爬取任务进行资源爬取,并建立与所述第一级资源爬取任务相对应的第二索引。在此,第二节点20进行资源爬取的操作可以通过网络爬取工具,诸如网络爬虫(crawler)、网络蜘蛛(spider)或者机器人(robot)等执行。所述第二索引包括但不限于资源的关键字信息以及资源的地址信息;在本发明的其他实施例中,所述第二索引还可以进一步包括其他附加信息,诸如所述资源来源的权威度信息、所述资源的更新时间信息以及所述资源的用户访问量信息等。为简明起见,本发明仅以所述第二索引包括资源的关键字信息以及资源的地址信息为例予以说明。举例而言,第二任务获取装置201获取的第一级资源爬取任务为爬取特定的多媒体影音资源,如影片《乱世佳人》,指向或包括《乱世佳人》的网页,以及存储《乱世佳人》的网络节点;第二节点20依据所述第一级资源爬取任务爬取指向或包括《乱世佳人》的网页,和/或储存《乱世佳人》的网络节点,并建立如表一所示的第二索引。
本领域技术人员应能理解,本发明所述的网络爬取工具、建立第二索引的方式以及第二索引的内容,仅为举例阐明本发明之目的,而并不应理解为对本发明的任何限制。
在步骤S503中,第二节点20将其在步骤S502中建立的第二索引发送至第一节点10;相应地,第一节点10接收自第二节点20发送的所述第二索引。
优选地,第二节点20还对所述第二索引进行筛选,以获得筛选后的第二索引,并将所述筛选后的第二索引发送至第一节点10。在此,第二节点20对所述第二索引进行筛选的条件包括但不限于根据所述第二索引中资源的资源属性和/或所述第二节点的爬取性能对所述第二索引进行筛选,其中,所述资源的资源属性包括但不限于所述资源的来源权威度、所述资源的更新时间或者所述资源的用户访问量等,所述第二节点的资源爬取性能包括但不限于所述第二节点的爬取频度、所述第二节点的爬取深度、所述第二节点的爬取广度等。例如,设定筛选条件为根据所述第二索引中资源的用户访问量对所述第二索引进行筛选,以获得包括对应用户访问量较大的所述资源的第二索引,请配合参阅表一,第二节点20在步骤S502中建立的第二索引包括《乱世佳人》的网页链接地址以及网络节点地址,如果来源于网页链接的《乱世佳人》的用户访问量大于来源于网络节点的《乱世佳人》的用户访问量,第二节点20在步骤S503中筛选出包括所述网页链接地址的索引条目,以获得筛选后的第二索引,并将所述筛选后的第二索引发送至第一节点10;相应地,第一节点10接收来自第二节点20的并经第二节点20筛选后的第二索引。本领域技术人员应能理解,本发明中对所述第二索引进行筛选的条件以及对所述第二索引进行筛选的方式,仅为举例阐明本发明之目的,而并不应理解为对本发明的任何限制。
在步骤S504中,第一节点10对所述第二索引进行优选,以建立与所述第二索引相对应的第一索引。在此,所述优选包括但不限于对所述第二索引进行排序、筛选、去重、合并,和/或对所述第二索引中的资源信息进行权值调整等。例如,请配合参阅表一,第一节点10对表一所示的第二索引进行筛选,如筛选出包括《乱世佳人》的网页链接地址以及最邻近第一节点10的存储有《乱世佳人》网络节点(如节点A),以建立与所述第二索引相对应的第一索引,所述第一索引如表二所示。
本领域技术人员应能理解,本发明所述的对第二索引进行优选以建立第一索引的方式,仅为举例阐明本发明之目的,而并不应理解为对本发明的任何限制。
图6为根据本发明一个优选实施例的方法流程图,示出用于对等网络中第一节点和第二节点配合实现建立索引的过程。其中,第一节点10与至少一个第二节点20通过对等网络通信或交互。
具体地,在本实施例中,在步骤S600中,第一节点10获取资源爬取任务;在步骤S601中,第一节点10将所述资源爬取任务作为第一级资源爬取任务发送至第二节点20,相应地,第二节点20获取所述第一级资源爬取任务;在步骤S602中,第二节点20根据所述第一级资源爬取任务进行资源爬取,以建立与所述第一级资源爬取任务相对应的第二索引;在步骤S603中,第二节点20将所述第二索引发送至第一节点10,相应地,第一节点10接收自第二节点20发送的基于所述第一级资源爬取任务的第二索引;在步骤S604中,第一节点10对所述第二索引进行优选,以建立与所述第二索引相对应的第一索引。
在本实施例中,第二节点20在步骤S601、S602和S603中所执行的步骤与功能分别与图5所示的第二节点20在步骤S501、S502和S503中所执行的步骤与功能基本相同,为简明起见,以引用方式包含于此,不再赘述。
第一节点10在S603和S604中所执行的步骤与功能分别与图5所示的第一节点10在S603和S604中所执行的步骤与功能基本相同,为简明起见,以引用方式包含于此,亦不赘述。
本实施例中,在步骤S600中,第一节点10获取资源爬取任务。在此,所述资源爬取任务可以来自用户或者来自其他网络设备或用户设备,所述资源爬取任务包括但不限于爬取特定的资源,和/或爬取包括特定资源的网页,或者爬取网络节点。例如,用户向第一节点10输入资源爬取任务,如爬取特定多媒体影音资源、指向、包括和/或链接至该多媒体影音资源的网页,和/或存储该多媒体影音资源的网络节点;相应地,第一节点10通过接收该用户输入的该资源爬取任务获取该资源爬取任务。在此,本领域技术人员应能理解,本发明所述的网络资源以及获取资源爬取任务的方式,并不限于前文所列举之资源,所有存储于现有网络中的各种资源以及网页链接,或者获取资源爬取任务的方式,均不脱离本发明之范畴。
举例而言,在步骤S600中,第一节点10获取用户输入的资源爬取任务,如爬取影片《乱世佳人》和《飘》,包括《乱世佳人》或《飘》的网页,以及存储《乱世佳人》和/或《飘》的网络节点;在步骤S601中,第一节点10将该资源爬取任务作为第一级资源爬取任务发送至第二节点20,相应地,第二节点20接收该第一级资源爬取任务;在步骤S602中,第二节点20根据该第一级资源爬取任务进行资源爬取,并建立如表一所示的第二索引;在步骤S603中,第二节点20将该第二索引发送至第一节点10,相应地,第一节点10接收该第二索引;在步骤S604中,第一节点10对该第二索引进行优选,建立如表二所示的第一索引。
在本实施例的一个优选示例中,该过程还包括由第一节点10执行的步骤S605。在步骤S605中,第一节点10根据其在步骤S600中获取的资源爬取任务进行资源爬取,以获得与所述资源爬取任务相对应的资源更新信息,并根据所述资源更新信息,更新第一索引处理装置312建立的第一索引。在此,所述资源更新信息可以索引形式建立,如表三所示。第一节点10还通过如将所述资源更新信息与所述第一索引合并等方式,更新所述第一索引,更新后的第一索引如表四所示。
需要说明的是,本领域技术人员应能理解,第一节点10在步骤S605中根据资源爬取任务获得资源更新信息的操作,与其在步骤S601中发送所述资源爬取任务的操作、其在步骤S603中接收自第二节点20发送的第二索引的操作,以及其在步骤S604中基于所述第二索引建立第一索引的操作之间不具有顺序关系,第一节点10可以在步骤S601、步骤S602以及步骤S603执行相应操作之前、之中或者之后执行步骤S605根据资源爬取任务获得资源更新信息的操作。
在本实施例的另一优选示例中,在步骤S600中,第一节点10获得资源爬取任务;在步骤S601中,第一节点10对所述资源爬取任务进行拆分,以获得与所述资源爬取任务相对应的资源爬取子任务,并将所述资源爬取子任务作为第一级资源爬取任务发送至第二节点20;相应的,第二节点20接收所述资源爬取子任务,亦即第一级资源爬取任务;在步骤S602中,第二节点20根据所述第一级资源爬取任务进行资源爬取,以建立与所述第一级资源爬取任务相对应的第二索引;在步骤S603中,第二节点20将所述第二索引发送至第一节点10,相应地,第一节点10接收自第二节点20发送的基于所述资源爬取子任务建立的第二索引;在步骤S604中,第一节点10对所述第二索引进行优选,以建立与所述第二索引相对应的第一索引。
其中,在步骤S601中,第一节点10至少可从两个维度对所述资源爬取任务进行拆分:1)从所述资源爬取任务的相关属性对所述资源爬取任务进行拆分,所述资源爬取任务的相关属性包括但不限于所述资源爬取任务的内容、数量、种类等;2)从第二节点20的相关属性对资源爬取任务进行拆分,所述第二节点20的相关属性包括但不限于所述第二节点20的数量、资源爬取性能等。
举例而言,当按照资源爬取任务的内容对所述资源爬取任务进行拆分时,例如,所述资源爬取任务是爬取特定的多媒体影音资源,如影片《乱世佳人》和《飘》以及指向或包括《乱世佳人》和《飘》的网页或节点;第一节点10对所述资源爬取任务按照其内容《乱世佳人》与《飘》进行拆分后,发送给对应的部分第二节点20的第一级资源爬取任务,亦即资源爬取子任务,为爬取多媒体影音资源《乱世佳人》,以及指向或包括《乱世佳人》的网页或节点,发送给对应的其他第二节点20的第一级资源爬取任务为爬取多媒体影音资源《飘》,以及指向或包括《飘》的网页或节点。在此,本领域技术人员应能理解,本发明举例的对资源爬取任务进行拆分所依据的条件,仅为阐明本发明之目的,而不应理解为对本发明的任何限制。本领域技术人员应能了解,本实施例中所列举之索引建立与更新方式,均系为简明阐述本发明之目的,而不应理解为对本发明的任何限制或限定。任何依照本实施例所阐述之建立、更新索引之方式,均不脱离本发明之范畴。
图7为本发明另一个优选实施例的方法流程图,示出用于对等网络中第一节点和第二节点配合实现建立索引及进行资源搜索的过程。其中,第一节点10与至少一个第二节点20通过对等网络通信或交互。
具体地,在本实施例中,在步骤S700中,第一节点10获取资源爬取任务;在步骤S701中,第一节点10将所述资源爬取任务作为第一级资源爬取任务发送至第二节点20,相应地,第二节点20获取所述第一级资源爬取任务;在步骤S702中,第二节点20根据所述第一级资源爬取任务进行资源爬取,以建立与所述第一级资源爬取任务相对应的第二索引;在步骤S703中,第二节点20将所述第二索引发送至第一节点10,相应地,第一节点10接收自第二节点20发送的基于所述第一级资源爬取任务的第二索引;在步骤S704中,第一节点10对所述第二索引进行优选,以建立与所述第二索引相对应的第一索引;在步骤S705中,第一节点10根据所述资源爬取任务进行资源爬取,以建立与所述资源爬取任务相对应的资源更新信息,并根据所述资源更新信息,更新所述第一索引;在步骤S706中,第一节点10获取搜索指令;在步骤S707中,第一节点10根据所述搜索指令搜索所述第一索引,以获取与所述搜索指令对应的第一搜索结果。
请参阅图6与图7,图7所示的第一节点10在步骤S700、步骤S701、步骤S703和步骤S704所执行的基本步骤与功能分别与图6所示的第一节点10在步骤S600、步骤S601、步骤S603和步骤S604所执行的基本步骤与功能基本相同,为简明起见,以引用方式包含于此,不再赘述。
图7所示的第二节点20在步骤S701、步骤S702和步骤S703所执行的基本步骤与功能分别与图6所示的第二节点20在步骤S601、步骤S602和步骤S603所执行的基本步骤与功能基本相同,为简明起见,以引用方式包含于此,亦不赘述。
如图7所示,在步骤S706中,第一节点10获取搜索指令;在步骤S707中,第一节点10根据所述搜索指令搜索所述第一索引,以获取与所述搜索指令相对应的第一搜索结果。在此,所述搜索指令可以来自用户或者来自其他网络设备或用户设备。优选地,第一节点10根据所述搜索指令进行搜索的第一索引包括其在步骤S401中建立的第一索引和其在步骤S705中更新的第一索引。例如,请同时参阅表一、表二、表三以及表四,当接收来自用户的搜索指令,要求搜索一定范围内,所有指向或包括特定媒体资源《乱世佳人》以及《飘》的网页链接与节点地址,第一节点10根据所述搜索指令搜索如表四所示的更新后的第一索引,获得第一搜索结果,所述第一搜索结果包括如表四所示的网页链接和/或节点的地址信息。本领域技术人员应当了解,此处所列举之搜索指令及搜索方式,仅为简明阐述本发明之目的,而不应理解为对本发明的任何限制。
进一步地,在该实施例的一个优选示例中,该过程还包括以下步骤:在步骤S708中,第一节点10发送所述搜索指令至第二节点20;相应地,第二节点20接收自第一节点10发送的所述搜索指令;在步骤S709中,第二节点20根据所述搜索指令搜索所述第二索引,以获取与搜索指令相对应的第二搜索结果;在步骤S710中,第二节点20发送所述第二搜索结果至第一节点10;相应地,第一节点10接收自第二节点20发送的基于所述搜索指令的第二搜索结果;在步骤S711中,第一节点10根据所述第二搜索结果,更新所述第一搜索结果。例如,请同时参阅表一、表二、表三以及表四,当第二节点20接收来自第一节点10的搜索指令,要求搜索一定范围内,所有指向或包括特定媒体资源《乱世佳人》以及《飘》的网页链接与节点地址,第二节点20根据所述搜索指令搜索如表一所示的第二索引,获得第二搜索结果,并将所述第二搜索结果发送至第一节点10,其中,所述第二搜索结果包括如表一所示的网页(a、b、c)的链接地址和节点A、B、C的地址;相应地,第一节点10接收所述第二搜索结果,如果第一搜索结果包括如表四所示的网页(x、y、z)的链接地址和/或节点X、Y、Z的地址,则第一节点10依据所述第二搜索结果将所述第一搜索结果更新为包括网页(a、b、c、x、y、z)的链接地址以及节点A、B、C、X、Y、Z的地址。本领域技术人员应当了解,此处所列举之搜索指令及搜索方式,以及获得并更新搜索结果之方式,仅为简明阐述本发明之目的,而不应理解为对本发明的任何限制。
需要说明的是,本领域技术人员应能理解,在该实施例中,第一节点10可以仅搜索第一节点10的第一索引,并根据所述第一索引获得相应的第一搜索结果,而无需将所述搜索指令发送至第二节点20,接收第二节点20返回的基于所述搜索指令的第二搜索结果,并根据所述第二搜索结果,更新所述第一搜索结果。第一节点10将所述搜索指令发送至第二节点20,并接收所述第二搜索结果,以更新所述第一搜索结果的操作,可作为该实施例的一个优选示例,用于阐述本发明之目的,以获得与所述搜索指令相对应的更好的搜索结果,而不应理解为对本发明的任何限制。
请参阅图8,所示为本发明一个方面的对等网络中第一节点、第二节点以及网络设备配合实现建立索引的系统拓扑图。其中,该系统包括多个第一节点10、多个与之经由网络相连接的第二节点以及至少一个网络设备30。具体地,一个网络设备30可与至少一个第一节点10经由网络通信;而至少一个第一节点10可与多个第二节点20经由网络通信。网络设备30可指定与其通信的节点为第一节点10。网络设备30预设第一节点信息;并获取登入所述对等网络中的至少一节点的信息;当所述节点的信息符合所述第一节点信息时,发送第一节点指定信息至所述节点,则所述节点接收所述第一节点指定信息,并根据所述第一节点指定信息成为第一节点10。
第二节点20获取第一级资源爬取任务,并根据所述第一级资源爬取任务进行资源爬取,以建立与所述第一级资源爬取任务相对应的第二索引,并发送所述第二索引至对应的至少一第一节点10;相应地,对应的第一节点10接收自至少一第二节点20发送的至少一第二索引,并对所述至少一第二索引进行优选,以建立与所述第二索引相对应的第一索引。
在此,“网络”包括但不限于电信网络、有线电视网络、计算机网络等各种网络;其中,计算机网络是用通信线路和通信设备将分布在不同地点的多台自治计算机系统互相连接起来,按照共同的网络协议,共享硬件、软件和数据资源的系统。为简化说明起见,本发明以计算机网络为例对网络进行阐述,尤其以因特网为例予以说明,然而,本领域的技术人员应能理解,该种举例仅为简便地阐述本发明之用,而不应理解为对本发明的任何限制。
此外,第一节点10、第二节点20与网络设备30包括但不限于接入网络中的任何网络设备或用户设备,其中,网络设备包括但不限于网络主机、单个网络服务器、多个网络服务器集或基于云计算的计算机集合,在此,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个超级虚拟计算机;用户设备包括但不限于任何一种能与用户进行交互的电子产品,例如计算机、手机、PDA、平板电脑、PSP、掌上电脑PPC等。
进一步地,第一节点10与第二节点20通过点对点或对等(Peer toPeer;P2P)协议通信,从而第一节点10、第二节点20与网络设备30更组成一个具有服务器的对等网络。具体地,网络设备30可通过对等协议和/或传统网络通信方式与第一节点10以及第二节点20进行通信,并指定第一节点10。第一节点10与第二节点20则通过如Skype与Coolstream等平台进行通信和/或交互,又或是通过例如Napster、Gnotella、Freenet、CAN、eDonkey、eMule、BitTorrent等协议进行通信,实现资源共享或交互。然而,本领域的技术人员应能理解,本发明中,第一节点10、第二节点20与网络设备30组成具有服务器的对等网络,并通过对等协议通信,并不限于上述举例的各种协议,其他现有的或今后可能出现的基于对等网络的通信或传输协议、和/或组网模式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
本领域技术人员还应能理解上述第一节点、第二节点与网络设备以及连接其间的网络及通信方式仅为举例,其他现有的或今后可能出现的第一节点、第二节点、网络设备或者连接其间的网络、或者通信方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
本领域技术人员还应能理解,图8中仅为简明起见而示出的各类网络元素的数量可能小于一个实际网络中的数量,但这种省略无疑地是以不会影响对本发明进行清楚、充分的公开为前提的。
为简明起见,下面以多个第一节点10、多个第二节点20、以及一个网络设备30组成的系统为例进行描述。本领域技术人员应能理解,网络设备30可以同时与其对应的多个第一节点10交互,多个第一节点10中的每一个可以同时与其对应的多个第二节点20交互。具体地,网络设备30预设第一节点信息,并获取登入所述对等网络中的多个节点的信息;当所述多个节点的信息均符合所述第一节点信息时,网络设备30分别发送第一节点指定信息至所述多个节点。相应地,多个节点中的每一个分别接收所述第一节点指定信息,并根据所述第一节点指定信息成为第一节点10。
每个第一节点10可与多个第二节点20经由对等协议相连接,多个第二节点20分别获取第一级资源爬取任务,并根据所述第一级资源爬取任务进行资源爬取,以建立与所述第一级资源爬取任务相对应的第二索引;多个节点20还分别发送所述第二索引至对应的至少一个第一节点10,相应地,对应的第一节点10接收自多个第二节点20分别发送的第二索引,并对所述多个第二索引进行优选,以建立与所述第二索引相对应的第一索引。在本发明中,所述优选,包括但不限于对所述多个第二索引进行排序、筛选、去重、合并、和/或对所述第二索引中的资源信息进行权值调整等。本领域的技术人员应能理解,上述处理方式仅为举例说明优选之方式,而并不应理解为对本发明的任何限制。
请参阅图9,所示为根据本发明一个方面的装置示意图,示出对等网络中配合实现建立索引的第一节点、第二节点以及网络设备。其中,网络设备30与至少一个第一节点10通过网络通信或交互;第一节点10与至少一个第二节点20通过对等网络通信或交互。在本发明的一个优选实施例中,所述第一节点10通过对等协议与所述第二节点20组成/或加入对等网络,并通过所述对等协议通信或交互;其中,所述对等协议包括但不限于基于Skype与Coolstream的平台进行通信或交互,以及如Napster、Gnotella、Freenet、CAN、eDonkey、eMule、BitTorrent等协议。然而,本领域技术人员应能理解,本发明所述对等协议并不限于上述举例的各种协议,其他现有的或今后可能出现的基于对等网络的通信或传输协议、和/或组网模式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
优选地,网络设备30可通过传统网络通信方式和/或对等协议与多个第一节点10通信和/或交互。为简明阐述起见,本实施例中仅以一个网络设备30与一个第一节点10为例予以说明。进一步地,本领域技术人员应能理解,在本发明的其他实施方式中,多个网络设备30中的每一个可以同时与其对应的多个第一节点10交互。第一节点10可通过对等协议与多个第二节点20通信和/或交互。为简明阐述起见,本实施例中仅以一个第一节点10与一个第二节点20为例予以说明。但是,本领域技术人员应能理解,在本发明的其他实施方式中,多个第一节点10中的每一个可以同时与其对应的多个第二节点20交互。
具体地,网络设备30包括节点信息设定装置931、节点信息获取装置932以及节点指定装置933。第一节点10包括节点执行装置910、第一索引接收装置911和第一索引处理装置912。第二节点20包括第二任务获取装置921、第二索引建立装置922和第二索引发送装置923。更具体地,网络设备30的节点信息设定装置931预设第一节点信息;节点信息获取装置932获取登入该对等网络中的至少一节点的信息;节点指定装置933在所述节点的信息符合所述预设的第一节点信息时,发送第一节点指定信息至该节点;相应的,该节点的节点执行装置910接收所述第一节点指定信息,并根据所述第一节点指定信息指定该节点成为第一节点10;第二节点20的第二任务获取装置921获取第一级资源爬取任务;接着,第二索引建立装置922根据所述第一级资源爬取任务进行资源爬取,以建立与所述第一级资源爬取任务相对应的第二索引;随后,第二索引发送装置923将所述第二索引发送至第一节点10,相应地,第一节点10的第一索引接收装置911接收自第二节点20发送的第二索引;接着,第一索引处理装置912对所述第二索引进行优选,以建立与所述第二索引相对应的第一索引。
具体地,网络设备30的节点信息设定装置931预设第一节点信息。在此,第一节点信息包括但不限于以下一个或多个信息:节点的带宽、运算能力、存储能力、负载能力、相邻节点数量、友好度、在网时间长度、信誉度等。例如,网络设备30的节点信息设定装置931预设第一节点信息为节点在固定周期内的在网时间长度阈值以及运算能力阈值。在此,本领域技术人员应能理解,本发明所述的第一节点信息,仅为举例阐明本发明之目的,而并不应理解为对本发明的任何限制。
节点信息获取装置932获取登入该对等网络中的至少一节点的信息。接上例,节点信息获取装置932获取登入对等网络,与网络设备30连接的至少一节点在固定周期内的在网时间长度以及运算能力信息。
节点指定装置933在所述节点的信息符合所述预设的第一节点信息时,发送第一节点指定信息至该节点。具体地,节点指定装置933根据节点信息获取装置932获取的登入该对等网络的节点的信息,判断所述节点是否符合节点信息设定装置931中预设的第一节点信息,当符合时,发送第一节点指定信息至该节点。例如,节点指定装置933判断所述节点在固定周期内的在网时间长度是否大于节点信息设定装置931中预设的固定周期内在网时间长度阈值,以及所述节点的运算能力是否大于节点信息设定装置311中预设的运算能力阈值;当该节点在固定周期内在网时间长度大于预设的固定周期内在网时间长度阈值,且该节点的运算能力大于预设的运算能力阈值时,节点指定装置933发送第一节点指定信息至该节点;相应地,该节点的节点执行装置910接收该第一节点指定信息,并根据该第一节点指定信息指定该节点成为第一节点10。
第二节点20的第二任务获取装置921获取第一级资源爬取任务。在此,所述第一级资源爬取任务可以来自用户或者来自第一节点10,所述第一级资源爬取任务包括但不限于爬取特定的资源、爬取包括特定资源的网页、或者爬取特定网络节点等。例如,用户经由键盘向第二节点20输入第一级资源爬取任务,如爬取包括特定关键字的新闻资源,指向、包括和/或链接至该新闻资源的网页和/或网络节点;相应地,第二节点20的第二任务获取装置921通过接收该用户输入的该第一级资源爬取任务获取相应的第一级资源爬取任务。在此,本领域技术人员应能理解,本发明所述的网络资源以及获取第一级资源爬取任务的方式,并不限于前文所列举之资源,所有存储于现有网络中的各种资源以及网页链接,或者获取第一级资源爬取任务的方式,均不脱离本发明之范畴。
第二节点20的第二索引建立装置922根据第二任务获取装置921获取的第一级资源爬取任务进行资源爬取,并建立与所述第一级资源爬取任务相对应的第二索引。在此,第二索引建立装置922进行资源爬取的操作可以通过网络爬取工具,诸如网络爬虫(crawler)、网络蜘蛛(spider)或者机器人(robot)等执行。所述第二索引包括但不限于资源的关键字信息以及资源的地址信息;在本发明的其他实施例中,所述第二索引还可以进一步包括其他附加信息,诸如所述资源来源的权威度信息、所述资源的更新时间信息以及所述资源的用户访问量信息等。为简明起见,本发明仅以所述第二索引包括资源的关键字信息以及资源的地址信息为例予以说明。举例而言,第二任务获取装置921获取的第一级资源爬取任务为爬取特定的多媒体影音资源,如影片《乱世佳人》,指向或包括《乱世佳人》的网页,以及存储《乱世佳人》的网络节点;第二索引建立装置922依据所述第一级资源爬取任务爬取指向或包括《乱世佳人》的网页,和/或储存《乱世佳人》的网络节点,并建立第二索引,如表一所示,在此不再赘述。本领域技术人员应能理解,本发明所述的网络爬取工具、建立第二索引的方式以及第二索引的内容,仅为举例阐明本发明之目的,而并不应理解为对本发明的任何限制。
第二节点20的第二索引发送装置923将第二索引建立装置922建立的第二索引发送至第一节点10。相应地,第一节点10的第一索引接收装置911接收自第二节点20发送的所述第二索引。
优选地,第二索引发送装置923还对所述第二索引进行筛选,以获得筛选后的第二索引,并将所述筛选后的第二索引发送至第一节点10。在此,对所述第二索引进行筛选的条件包括但不限于根据所述第二索引中资源的资源属性和/或所述第二节点的爬取性能对所述第二索引进行筛选,其中,所述资源的资源属性包括但不限于所述资源的来源权威度、所述资源的更新时间或者所述资源的用户访问量等,所述第二节点的资源爬取性能包括但不限于所述第二节点的爬取频度、所述第二节点的爬取深度、所述第二节点的爬取广度等。例如,设定筛选条件为根据所述第二索引中资源的用户访问量对所述第二索引进行筛选,以获得包括对应用户访问量较大的所述资源的第二索引,请配合参阅表一,第二索引建立装置922建立的第二索引包括《乱世佳人》的网页链接地址以及网络节点地址,如果来源于网页链接的《乱世佳人》的用户访问量大于来源于网络节点的《乱世佳人》的用户访问量,第二索引发送装置923筛选出包括所述网页链接地址的索引条目,以获得筛选后的第二索引,并将所述筛选后的第二索引发送至第一节点10;相应地,第一节点10的第一索引接收装置911接收来自第二节点20的经第二索引发送装置923筛选后的第二索引。本领域技术人员应能理解,本发明中对所述第二索引进行筛选的条件以及对所述第二索引进行筛选的方式,仅为举例阐明本发明之目的,而并不应理解为对本发明的任何限制。
第一节点10的第一索引处理装置912对所述第二索引进行优选,以建立与所述第二索引相对应的第一索引。在此,所述优选包括但不限于对所述第二索引进行排序、筛选、去重、合并,和/或对所述第二索引中的资源信息进行权值调整等。例如,请配合参阅表一,第一索引处理装置912对表一所示的第二索引进行筛选,如筛选出包括《乱世佳人》的网页链接地址以及最邻近第一节点10的存储有《乱世佳人》网络节点(如节点A),以建立与所述第二索引相对应的第一索引,所述第一索引如表二所示,在此不再赘述。本领域技术人员应能理解,本发明所述的对第二索引进行优选以建立第一索引的方式,仅为举例阐明本发明之目的,而并不应理解为对本发明的任何限制。
请参阅图10,所示为根据本发明一个优选实施例的装置示意图,示出对等网络中配合实现建立索引的第一节点、第二节点以及网络设备。其中,网络设备30与至少一个第一节点10通信或交互;第一节点10与至少一个第二节点20通过对等网络通信或交互。为简明阐述起见,本实施例中,以一个网络设备30、一个第一节点10以及一个第二节点20进行举例说明,本领域技术人员应能理解,该等举例仅为阐明本发明之目的,而并不应理解为对本发明的任何限制。
具体地,在本实施例中,第一节点10包括节点执行装置1010、第一索引接收装置1011、第一索引处理装置1012、第一任务获取装置1013、第一任务处理装置1014以及第一索引发送装置1017;第二节点20包括第二任务获取装置1021、第二索引建立装置1022和第二索引发送装置1023;网络设备30包括节点信息设定装置1031、节点信息获取装置1032、节点指定装置1033、索引接收装置1034以及本地索引获取装置1035。更具体地,网络设备30的节点信息设定装置1031预设第一节点的信息;节点信息获取装置1032获取登入该对等网络中的至少一节点的信息;节点指定装置1033在所述节点的信息符合所述预设的第一节点信息时,发送第一节点指定信息至该节点;相应的,该节点的节点执行装置1010接收所述第一节点指定信息,并根据所述第一节点指定信息指定该节点成为第一节点10;第一节点10的第一任务获取装置1013获取资源爬取任务;第一任务处理装置1014将所述资源爬取任务作为第一级资源爬取任务发送至第二节点20,相应地,第二节点20的第二任务获取装置1021获取所述第一级资源爬取任务;接着,第二索引建立装置1022根据所述第一级资源爬取任务进行资源爬取,以建立与所述第一级资源爬取任务相对应的第二索引;随后,第二索引发送装置1023将所述第二索引发送至第一节点10,相应地,第一节点10的第一索引接收装置1011接收自第二节点20发送的基于所述第一级资源爬取任务的第二索引;接着,第一索引处理装置1012对所述第二索引进行优选,以建立与所述第二索引相对应的第一索引;第一索引发送装置1017发送所述第一索引至网络设备30,相应地,网络设备30的索引接收装置1034接收自第一节点10发送的所述第一索引;本地索引获取装置1035对所述第一索引进行优选,以获取与所述第一索引相对应的本地索引。
请配合参阅图9与图10,在本实施例中,图10所示的第一节点10的节点执行装置1010、第一索引接收装置1011、第一索引处理装置1012分别与图9所示的节点执行装置910、第一索引接收装置911、第一索引处理装置912执行的步骤与功能基本相同,为简明起见,以引用方式包含于此,不再赘述。
图10所示的第二节点20的第二任务获取装置1021、第二索引建立装置1022和第二索引发送装置1023分别与图9所示的第二任务获取装置921、第二索引建立装置922和第二索引发送装置923所执行的步骤与功能基本相同,为简明起见,以引用方式包含于此,在此不再赘述。
图10所示的网络设备30的节点信息设定装置1031、节点信息获取装置1032以及节点指定装置1033分别与图9所示的网络设备30的节点信息设定装置931、节点信息获取装置932以及节点指定装置933所执行的步骤与功能基本相同,为简明起见,以引用方式包含于此,亦不赘述。
本实施例中,第一节点10的第一任务获取装置1013获取资源爬取任务。在此,所述资源爬取任务可以来自用户或者来自其他网络设备或用户设备,所述资源爬取任务包括但不限于爬取特定的资源,和/或爬取包括特定资源的网页,或者爬取网络节点。例如,用户向第一节点10输入资源爬取任务,如爬取特定多媒体影音资源、指向、包括和/或链接至该多媒体影音资源的网页,和/或存储该多媒体影音资源的网络节点;相应地,第一任务获取装置1013通过接收该用户输入的该资源爬取任务获取该资源爬取任务。在此,本领域技术人员应能理解,本发明所述的网络资源以及获取资源爬取任务的方式,并不限于前文所列举之资源,所有存储于现有网络中的各种资源以及网页链接,或者获取资源爬取任务的方式,均不脱离本发明之范畴。
举例而言,第一节点10的第一任务获取装置1013获取用户输入的资源爬取任务,如爬取影片《乱世佳人》和《飘》,包括《乱世佳人》或《飘》的网页,以及存储《乱世佳人》和/或《飘》的网络节点;第一任务处理装置1014将该资源爬取任务作为第一级资源爬取任务发送至第二节点20;第二节点20的第二任务获取装置1021接收该第一级资源爬取任务;第二索引建立装置1022根据该第一级资源爬取任务进行资源爬取,并建立如表一所示的第二索引;第二索引发送装置1023将该第二索引发送至第一节点10;第一节点10的第一索引接收装置311接收该第二索引;第一索引处理装置312对该第二索引进行优选,建立如表二所示的第一索引;第一索引发送装置1017发送所述第一索引至网络设备30,相应地,网络设备30的索引接收装置1034接收自第一节点10发送的所述第一索引;本地索引获取装置1035对所述第一索引进行优选,以获取与所述第一索引相对应的本地索引。
在本实施例的一个优选示例中,第一节点10还包括第一索引更新装置1015。第一索引更新装置1015根据第一任务获取装置1013获取的资源爬取任务进行资源爬取,以获得与所述资源爬取任务相对应的资源更新信息,并根据所述资源更新信息,更新第一索引处理装置1012建立的第一索引。在此,所述资源更新信息可以索引形式建立,如表三所示。第一索引更新装置1015还通过如将所述资源更新信息与所述第一索引合并等方式,更新所述第一索引,更新后的第一索引如表四所示。
优选地,第一索引发送装置1017发送所述更新后的第一索引至网络设备30,相应地,网络设备30的索引接收装置1034接收所述更新后的第一索引;本地索引获取装置1035对所述更新后的第一索引进行优选,以获取与所述更新后的第一索引相对应的本地索引。
需要说明的是,本领域技术人员应能理解,第一索引更新装置1015根据资源爬取任务获得资源更新信息的操作,与第一任务处理装置1014发送所述资源爬取任务的操作、第一索引接收装置1011接收自第二节点20发送的第二索引的操作,以及第一索引处理装置1012基于所述第二索引建立第一索引的操作之间不具有顺序关系,第一索引更新装置1015可以在第一任务处理装置1014、第一索引接收装置1011以及第一索引处理装置1012执行相应操作之前、之中或者之后执行根据资源爬取任务获得资源更新信息的操作。
在本实施例的另一优选示例中,第一节点10的第一任务获取装置1013获取资源爬取任务;第一任务处理装置1014对所述资源爬取任务进行拆分,以获得与所述资源爬取任务相对应的资源爬取子任务,并将所述资源爬取子任务作为第一级资源爬取任务发送至第二节点20;相应的,第二节点20的第二任务获取装置1021接收所述资源爬取子任务,亦即第一级资源爬取任务;第二索引建立装置1022根据所述第一级资源爬取任务进行资源爬取,以建立与所述第一级资源爬取任务相对应的第二索引;第二索引发送装置1023将所述第二索引发送至第一节点10,相应地,第一节点10的第一索引接收装置1011接收自第二节点20发送的基于所述资源爬取子任务建立的第二索引;第一索引处理装置1012对所述第二索引进行优选,以建立与所述第二索引相对应的第一索引;第一索引发送装置1017发送所述第一索引至网络设备30,相应地,网络设备30的索引接收装置1034接收自第一节点10发送的所述第一索引;本地索引获取装置1035对所述第一索引进行优选,以获取与所述第一索引相对应的本地索引。
其中,第一任务处理装置1014至少可从两个维度对所述资源爬取任务进行拆分:1)从所述资源爬取任务的相关属性对所述资源爬取任务进行拆分,所述资源爬取任务的相关属性包括但不限于所述资源爬取任务的内容、数量、种类等;2)从第二节点20的相关属性对资源爬取任务进行拆分,所述第二节点20的相关属性包括但不限于所述第二节点的数量、资源爬取性能等。
举例而言,当按照资源爬取任务的内容对所述资源爬取任务进行拆分时,例如,所述资源爬取任务是爬取特定的多媒体影音资源,如影片《乱世佳人》和《飘》以及指向或包括《乱世佳人》和《飘》的网页或节点;第一任务处理装置1014对所述资源爬取任务按照其内容《乱世佳人》与《飘》进行拆分后,发送给对应的部分第二节点20的第一级资源爬取任务,亦即资源爬取子任务为爬取多媒体影音资源《乱世佳人》,以及指向或包括《乱世佳人》的网页或节点,发送给对应的其他第二节点20的第一级资源爬取任务为爬取多媒体影音资源《飘》,以及指向或包括《飘》的网页或节点。在此,本领域技术人员应能理解,本发明举例的对资源爬取任务进行拆分所依据的条件,仅为阐明本发明之目的,而不应理解为对本发明的任何限制。
本实施例中,第一索引发送装置1017发送所述第一索引至网络设备30。具体地,第一索引发送装置1017发送的第一索引可以是第一索引处理装置1012对第一索引接收装置1011接收的第二索引进行优选后的第一索引,或者经第一索引更新装置1015对所述第一索引进行更新后的第一索引。举例而言,第一索引发送装置1017可以发送如表二所示的第一索引,或发送如表四所示的更新后的第一索引至网络设备30。
优选地,在本实施例中,第一索引发送装置1017还对所述第一索引进行筛选,以获得筛选后的第一索引,并将筛选后的第一索引发送至网络设备30。具体地,第一索引发送装置1017对所述第一索引进行筛选的条件包括但不限于根据所述第一索引中资源的资源属性和/或所述第一节点的爬取性能对所述第一索引进行筛选,其中,所述资源的资源属性包括但不限于所述资源的来源权威度、所述资源的更新时间或者所述资源的用户访问量等,所述第一节点的资源爬取性能包括但不限于所述第一节点的爬取频度、所述第一节点的爬取深度、所述第一节点的爬取广度等。本领域技术人员应当了解,本实施例中所例举的对第一索引的筛选方式,仅为阐明本发明起见,而不应理解为对本发明的任何限制。
在本实施例中,网络设备30的索引接收装置1034接收自第一节点10发送的第一索引。例如,索引接收装置1034接收第一节点10的第一索引发送装置1017发送的如表二所示的第一索引,或发送如表四所示的更新后的第一索引。
本地索引获取装置1035对所述第一索引进行优选,以获取与所述第一索引相对应的本地索引。本实施例中所述优选,包括但不限于对所述多个第二索引进行排序、筛选、去重、合并、和/或对所述第二索引中的资源信息进行权值调整等。具体地,本地索引获取装置1035可以对表二所示的第一索引进行优选,或对表四所示的更新后的第一索引进行优选,从而建立相应的本地索引如表五所示。
表五:本地索引示例
在本实施例中,本地索引获取装置1035对表二所示的第一索引进行优选,建立了具有最高资源信息权值的索引,即仅包括网页a链接地址的索引。本领域的技术人员应能理解,上述处理方式仅为举例说明优选之方式,而并不应理解为对本发明的任何限制。
请参阅图11,所示为根据本发明另一优选实施例的装置示意图,示出对等网络中配合实现建立索引及进行搜索的第一节点、第二节点以及网络设备。其中,网络设备30与至少一个第一节点10通信或交互;第一节点10与至少一个第二节点20通过对等网络通信或交互。
具体地,在本实施例中,第一节点10包括节点执行装置1110、第一索引接收装置1111、第一索引处理装置1112、第一任务处理装置1113、第一索引更新装置1114、第一索引发送装置1117;第二节点20包括第二任务获取装置1121、第二索引建立装置1122、第二索引发送装置1123;网络设备30包括节点信息设定装置1131、节点信息获取装置1132、节点指定装置1133、索引接收装置1134、本地索引获取装置1135以及任务处理装置1136。
网络设备30的节点信息设定装置1131预设第一节点的信息;节点信息获取装置1132获取登入该对等网络中的至少一节点的信息;节点指定装置1133在所述节点的信息符合所述预设的第一节点信息时,发送第一节点指定信息至该节点;相应的,该节点的节点执行装置1110接收所述第一节点指定信息,并根据所述第一节点指定信息指定该节点成为第一节点10;网络设备30的任务处理装置1136获取初始资源爬取任务,拆分所述初始资源爬取任务,以获取与所述初始资源爬取任务相对应的资源爬取任务,并发送所述资源爬取任务至第一节点10,相应地,第一节点10的第一任务获取装置1113接收来自网络设备30的所述资源爬取任务;第一任务处理装置1114将所述资源爬取任务作为第一级资源爬取任务发送至第二节点20,相应地,第二节点20的第二任务获取装置1121获取所述第一级资源爬取任务;接着,第二索引建立装置1122根据所述第一级资源爬取任务进行资源爬取,以建立与所述第一级资源爬取任务相对应的第二索引;随后,第二索引发送装置1123将所述第二索引发送至第一节点10,相应地,第一节点10的第一索引接收装置1111接收自第二节点20发送的基于所述第一级资源爬取任务的第二索引;接着,第一索引处理装置1112对所述第二索引进行优选,以建立与所述第二索引相对应的第一索引;第一索引发送装置1117发送所述第一索引至网络设备30,相应地,网络设备30的索引接收装置1134接收自第一节点10发送的所述第一索引;本地索引获取装置1135对所述第一索引进行优选,以获取与所述第一索引相对应的本地索引。
请配合参阅图11与图10,在本实施例中,图11所示的第一节点10的节点执行装置1110、第一索引接收装置1111、第一索引处理装置1112、第一任务获取装置1113、第一任务处理装置1114以及第一索引发送装置1117分别与图10所示的第一节点10的节点执行装置1010、第一索引接收装置1011、第一索引处理装置1012、第一任务获取装置1113、第一任务处理装置1114以及第一索引发送装置1117所执行的步骤与功能基本相同,为简明起见,以引用方式包含于此,不再赘述。
优选地,第一节点10还可以进一步包括第一索引更新装置1115,第一索引更新装置1115与图10所示的第一节点10的第一索引更新装置1015所执行的步骤与功能基本相同,为简明起见,以引用方式包含于此,不再赘述。
图11所示的第二节点20的第二任务获取装置1121、第二索引建立装置1122和第二索引发送装置1123与图10所示的第二节点20的第二任务获取装置1021、第二索引建立装置1022和第二索引发送装置1023所执行的步骤与功能基本相同,为简明起见,以引用方式包含于此,在此不再赘述。
图11所示的网络装置30的节点信息设定装置1131、节点信息获取装置1132、节点指定装置1133、索引接收装置1134以及本地索引获取装置1135与图10所示的网络设备30的节点信息设定装置1031、节点信息获取装置1032、节点指定装置1033、索引接收装置1034以及本地索引获取装置1035所执行的步骤与功能基本相同,为简明起见,以引用方式包含于此,亦不赘述。
在本实施例中,网络设备30的任务处理装置1136获取初始资源爬取任务,拆分所述初始资源爬取任务,以获取与所述初始资源爬取任务相对应的资源爬取任务,并发送所述资源爬取任务至第一节点10。在此,所述初始资源爬取任务可以来自用户或者来自其他网络设备或用户设备,所述资源爬取任务包括但不限于爬取特定的资源,和/或爬取包括特定资源的网页,或者爬取网络节点。例如,其它网络设备向网络设备30发送资源爬取任务,如爬取特定多媒体影音资源、指向、包括和/或链接至该多媒体影音资源的网页,和/或存储该多媒体影音资源的网络节点;相应地,任务处理装置1136通过接收该来自其它网络设备的资源爬取任务,获取该初始资源爬取任务。在此,本领域技术人员应能理解,本发明所述的网络资源以及获取初始资源爬取任务的方式,并不限于前文所列举之资源,所有存储于现有网络中的各种资源以及网页链接,或者获取初始资源爬取任务的方式,均不脱离本发明之范畴。
在此,任务处理装置1136至少可从两个维度对所述初始资源爬取任务进行拆分:1)从所述初始资源爬取任务的相关属性对所述初始资源爬取任务进行拆分,所述初始资源爬取任务的相关属性包括但不限于所述初始资源爬取任务的内容、数量、种类等;2)从第一节点10的相关属性对初始资源爬取任务进行拆分,所述第一节点10的相关属性包括但不限于所述第一节点10的数量、资源爬取性能等。
举例而言,当任务处理装置1136按照初始资源爬取任务的内容对所述初始资源爬取任务进行拆分时,例如,所述初始资源爬取任务是爬取特定的多媒体影音资源,如影片《乱世佳人》、《飘》、《Gonewith the Wind》、《随风而逝》,以及指向或包括《乱世佳人》、《飘》、《Gone with the Wind》、《随风而逝》的网页或节点;任务处理装置1136对所述初始资源爬取任务按照其内容进行拆分后,获取对应的部分分别为爬取影片《乱世佳人》、《飘》、《Gone with the Wind》与《随风而逝》,以及爬取指向或包括《乱世佳人》、《飘》、《Gonewith the Wind》与《随风而逝》的网页或节点,并将拆分后的任务作为资源爬取任务分别发送至至少一个第一节点10。在此,本领域技术人员应能理解,本发明举例的对初始资源爬取任务进行拆分所依据的条件,仅为阐明本发明之目的,而不应理解为对本发明的任何限制。
在本实施例的一个优选示例中,网络设备30还进一步包括本地搜索装置1137。本地搜索装置1137获取搜索指令,根据所述搜索指令,搜索所述本地索引,以获得与所述搜索指令相对应的本地搜索结果。在此,所述搜索指令可以来自用户或者来自其他网络设备或用户设备。具体地,本地搜索装置1137接收搜索指令,要求搜索一定范围内,所有指向或包括特定媒体资源《乱世佳人》以及《飘》的网页链接与节点地址,在此,所述搜索指令可以来自用户或者来自其他网络设备或用户设备;本地搜索装置1137根据所述搜索指令搜索如表五所示的本地索引,并建立相应的本地搜索结果,即所述本地搜索结果包括如表五所示的网页链接。
优选地,第一节点10还进一步包括第一搜索装置1116,网络设备30的本地搜索装置1137还发送所述搜索指令至第一节点10;相应地,第一节点10的第一搜索装置1116接收来自网络设备30的所述搜索指令,根据所述搜索指令搜索所述第一索引,以获取与所述搜索指令相对应的第一搜索结果,并将所述第一搜索结果发送至网络设备30;相应地,本地搜索装置1137接收自第一节点10发送的基于所述搜索指令的第一搜索结果,并根据所述第一搜索结果,更新所述本地搜索结果。优选地,在本实施例中,第一搜索装置1116根据所述搜索指令进行搜索的第一索引包括第一索引处理装置1112建立的第一索引和第一索引更新装置1115更新的第一索引。例如,请同时参阅表一、表二、表三以及表四,当第一搜索装置1116接收来自网络设备30的搜索指令,要求搜索一定范围内,所有指向或包括特定媒体资源《乱世佳人》以及《飘》的网页链接与节点地址,并根据所述搜索指令搜索如表四所示的更新后的第一索引,获得第一搜索结果,所述第一搜索结果包括如表四所示的网页链接和/或节点的地址信息,并发送所述第一搜索结果至网络设备30,网络设备30根据所述第一搜索结果更新包括如表五所示的网页链接。本领域技术人员应当了解,此处所列举之搜索指令及搜索方式,仅为简明阐述本发明之目的,而不应理解为对本发明的任何限制。
需要说明的是,本领域技术人员应能理解,在本优选示例中,本地搜索装置1137可以仅搜索网络设备30的本地索引,并根据所述本地索引获得相应的本地搜索结果,而无需将所述搜索指令发送至第一节点10,接收自第一节点10发送的基于所述搜索指令的第一搜索结果,并根据所述第一搜索结果,更新所述本地搜索结果。本地搜索装置1137将所述搜索指令发送至第一节点10,并接收所述第一搜索结果,以更新所述本地搜索结果的操作,仅作为本优选示例的一个进一步的优选方案,用于阐述本发明之目的,以获得与所述搜索指令相对应的更好的搜索结果,而不应理解为对本发明的任何限制。
在本优选示例的该进一步的优选方案中,更优选地,第一节点10的第一搜索装置1116还发送所述搜索指令至第二节点20;相应地,第二节点20的第二搜索装置1124接收自第一节点10发送的所述搜索指令,并根据所述搜索指令搜索所述第二索引,以获取与搜索指令相对应的第二搜索结果,发送所述第二搜索结果至第一节点10;相应地,第一搜索装置1116接收自第二节点20发送的基于所述搜索指令的第二搜索结果,并根据所述第二搜索结果,更新所述第一搜索结果。例如,请同时参阅表一、表二、表三、表四以及表五,当第二搜索装置1124接收来自第一节点10的搜索指令,要求搜索一定范围内,所有指向或包括特定媒体资源《乱世佳人》以及《飘》的网页链接与节点地址,并根据所述搜索指令搜索如表一所示的第二索引,获得第二搜索结果,并将所述第二搜索结果发送至第一节点10,其中,所述第二搜索结果包括如表一所示的网页(a、b、c)的链接地址和节点A、B、C的地址。第一节点10的第一搜索装置1116接收所述第二搜索结果,如果第一搜索结果包括如表四所示的网页(x、y、z)的链接地址和/或节点X、Y、Z的地址,则第一搜索装置1116依据所述第二搜索结果将所述第一搜索结果更新为包括网页a、b、c、x、y、z的链接地址以及节点A、B、C、X、Y、Z的地址。而网络设备30的本地搜索装置1137的本地搜索结果仅包括如表五所示的包括网页a的链接地址,则网络设备30的本地搜索装置1137根据所述第一搜索结果将所述本地搜索结果更新为包括网页a、b、c、x、y、z的链接地址以及节点A、B、C、X、Y、Z的地址。本领域技术人员应当了解,此处所列举之搜索指令及搜索方式,以及获得并更新搜索结果之方式,仅为简明阐述本发明之目的,而不应理解为对本发明的任何限制。
需要说明的是,本领域技术人员应能理解,在本优选示例的该进一步的优选方案中,第一搜索装置1116可以仅搜索第一节点10的第一索引,并根据所述第一索引获得相应的第一搜索结果,而无需将所述搜索指令发送至第二节点20,并接收自第二节点20返回的基于所述搜索指令的第二搜索结果,并根据所述第二搜索结果,更新所述第一搜索结果。第一搜索装置1116将所述搜索指令发送至第二节点20,并接收所述第二搜索结果,以更新所述第一搜索结果的操作,仅作为该优选方案的进一步优选方案,用于阐述本发明之目的,以获得与所述搜索指令相对应的更好的搜索结果,而不应理解为对本发明的任何限制。
图12为根据本发明一个方面的方法流程图,示出用于对等网络中第一节点、第二节点以及网络设备配合实现建立索引的过程。其中,网络设备30与至少一个第一节点10通过网络通信或交互;第一节点10与至少一个第二节点20通过对等网络通信或交互。在本发明的一个优选实施例中,所述第一节点10通过对等协议与所述第二节点20组成/或加入对等网络,并通过所述对等协议通信或交互;其中,所述对等协议包括但不限于基于Skype与Coolstream的平台进行通信或交互,以及如Napster、Gnotella、Freenet、CAN、eDonkey、eMule、BitTorrent等协议。然而,本领域技术人员应能理解,本发明所述对等协议并不限于上述举例的各种协议,其他现有的或今后可能出现的基于对等网络的通信或传输协议、和/或组网模式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
优选地,网络设备30可通过传统网络通信方式和/或对等协议与多个第一节点10通信和/或交互。为简明阐述起见,本实施例中仅以一个网络设备30与一个第一节点10为例予以说明。进一步地,本领域技术人员应能理解,在本发明的其他实施方式中,多个网络设备30中的每一个可以同时与其对应的多个第一节点10交互。第一节点10可通过对等协议与多个第二节点20通信和/或交互。为简明阐述起见,本实施例中仅以一个第一节点10与一个第二节点20为例予以说明。但是,本领域技术人员应能理解,在本发明的其他实施方式中,多个第一节点10中的每一个可以同时与其对应的多个第二节点20交互。
具体地,在步骤S1212中,网络设备30预设第一节点信息;在步骤S1213中,网络设备30获取登入该对等网络中的至少一节点的信息;在步骤S1214中,网络设备30在所述节点的信息符合所述预设的第一节点信息时,发送第一节点指定信息至该节点;相应的,该节点接收所述第一节点指定信息;在步骤S1215中,该节点根据所述第一节点指定信息指定该节点成为第一节点10;在步骤S1201中,第二节点20获取第一级资源爬取任务;在步骤S1202中,第二节点20根据所述第一级资源爬取任务进行资源爬取,以建立与所述第一级资源爬取任务相对应的第二索引;在步骤S1203中,第二节点20将所述第二索引发送至第一节点10,相应地,第一节点10接收自第二节点20发送的第二索引;在步骤S1204中,第一节点10对所述第二索引进行优选,以建立与所述第二索引相对应的第一索引。
更具体地,在步骤S1212中,网络设备30预设第一节点信息。在此,第一节点信息包括但不限于以下一个或多个信息:节点的带宽、运算能力、存储能力、负载能力、相邻节点数量、友好度、在网时间长度、信誉度等。例如,网络设备30预设第一节点信息为节点在固定周期内的在网时间长度阈值以及运算能力阈值。在此,本领域技术人员应能理解,本发明所述的第一节点信息,仅为举例阐明本发明之目的,而并不应理解为对本发明的任何限制。
在步骤S1213中,网络设备30获取登入该对等网络中的至少一节点的信息。接上例,网络设备30获取登入对等网络,与该网络设备30连接的至少一节点在固定周期内的在网时间长度以及运算能力信息。
在步骤S1214中,网络设备30在所述节点的信息符合所述预设的第一节点信息时,发送第一节点指定信息至该节点;相应地,该节点接收该第一节点指定信息,在步骤S1215中,该节点根据该第一节点指定信息指定该节点成为第一节点10。具体地,在步骤S1213中,网络设备30获取登入该对等网络的节点的信息;在步骤S1214中,网络设备30根据所述节点的信息,判断所述节点是否符合该网络设备30预设的第一节点信息,当符合时,发送第一节点指定信息至该节点;相应地,该节点接收该第一节点指定信息,在步骤S1215中,该节点根据该第一节点指定信息指定该节点成为第一节点10。例如,网络设备30判断所述节点在固定周期内的在网时间长度是否大于该网络设备30预设的固定周期内在网时间长度阈值,以及所述节点的运算能力是否大于该网络设备30预设的运算能力阈值;当该节点在固定周期内在网时间长度大于预设的固定周期内在网时间长度阈值,且该节点的运算能力大于预设的运算能力阈值时,该网络设备30发送第一节点指定信息至该节点;相应地,该节点接收该第一节点指定信息,根据该第一节点指定信息指定该节点成为第一节点10。
在步骤S1201中,第二节点20获取第一级资源爬取任务。在此,所述第一级资源爬取任务可以来自用户或者来自第一节点10,所述第一级资源爬取任务包括但不限于爬取特定的资源、爬取包括特定资源的网页、或者爬取特定网络节点等。例如,用户经由键盘向第二节点20输入第一级资源爬取任务,如爬取包括特定关键字的新闻资源,指向、包括和/或链接至该新闻资源的网页和/或网络节点;相应地,第二节点20通过接收该用户输入的该第一级资源爬取任务获取相应的第一级资源爬取任务。在此,本领域技术人员应能理解,本发明所述的网络资源以及获取第一级资源爬取任务的方式,并不限于前文所列举之资源,所有存储于现有网络中的各种资源以及网页链接,或者获取第一级资源爬取任务的方式,均不脱离本发明之范畴。
在步骤S1202中,第二节点20根据其在步骤S1201中获取的第一级资源爬取任务进行资源爬取,并建立与所述第一级资源爬取任务相对应的第二索引。在此,第二节点20进行资源爬取的操作可以通过网络爬取工具,诸如网络爬虫(crawler)、网络蜘蛛(spider)或者机器人(robot)等执行。所述第二索引包括但不限于资源的关键字信息以及资源的地址信息;在本发明的其他实施例中,所述第二索引还可以进一步包括其他附加信息,诸如所述资源来源的权威度信息、所述资源的更新时间信息以及所述资源的用户访问量信息等。为简明起见,本发明仅以所述第二索引包括资源的关键字信息以及资源的地址信息为例予以说明。举例而言,第二任务获取装置921获取的第一级资源爬取任务为爬取特定的多媒体影音资源,如影片《乱世佳人》,指向或包括《乱世佳人》的网页,以及存储《乱世佳人》的网络节点;第二节点20依据所述第一级资源爬取任务爬取指向或包括《乱世佳人》的网页,和/或储存《乱世佳人》的网络节点,并建立第二索引,如表一所示,在此不再赘述。本领域技术人员应能理解,本发明所述的网络爬取工具、建立第二索引的方式以及第二索引的内容,仅为举例阐明本发明之目的,而并不应理解为对本发明的任何限制。
在步骤S1203中,第二节点20将其在步骤S1202中建立的第二索引发送至第一节点10;相应地,第一节点10接收自第二节点20发送的所述第二索引。
优选地,在步骤S1203中,第二节点20还对所述第二索引进行筛选,以获得筛选后的第二索引,并将所述筛选后的第二索引发送至第一节点10。在此,第二节点20对所述第二索引进行筛选的条件包括但不限于根据所述第二索引中资源的资源属性和/或所述第二节点的爬取性能对所述第二索引进行筛选,其中,所述资源的资源属性包括但不限于所述资源的来源权威度、所述资源的更新时间或者所述资源的用户访问量等,所述第二节点的资源爬取性能包括但不限于所述第二节点的爬取频度、所述第二节点的爬取深度、所述第二节点的爬取广度等。例如,设定筛选条件为根据所述第二索引中资源的用户访问量对所述第二索引进行筛选,以获得包括对应用户访问量较大的所述资源的第二索引,请配合参阅表一,第二节点20在步骤S1202中建立的第二索引包括《乱世佳人》的网页链接地址以及网络节点地址,如果来源于网页链接的《乱世佳人》的用户访问量大于来源于网络节点的《乱世佳人》的用户访问量,第二节点20在步骤S1203中筛选出包括所述网页链接地址的索引条目,以获得筛选后的第二索引,并将所述筛选后的第二索引发送至第一节点10;相应地,第一节点10接收来自第二节点20的经该第二节点20筛选后的第二索引。本领域技术人员应能理解,本发明中对所述第二索引进行筛选的条件以及对所述第二索引进行筛选的方式,仅为举例阐明本发明之目的,而并不应理解为对本发明的任何限制。
在步骤S1204中,第一节点10对所述第二索引进行优选,以建立与所述第二索引相对应的第一索引。在此,所述优选包括但不限于对所述第二索引进行排序、筛选、去重、合并,和/或对所述第二索引中的资源信息进行权值调整等。例如,请配合参阅表一,第一节点10对表一所示的第二索引进行筛选,如筛选出包括《乱世佳人》的网页链接地址以及最邻近第一节点10的存储有《乱世佳人》网络节点(如节点A),以建立与所述第二索引相对应的第一索引,所述第一索引如表二所示,在此不再赘述。本领域技术人员应能理解,本发明所述的对第二索引进行优选以建立第一索引的方式,仅为举例阐明本发明之目的,而并不应理解为对本发明的任何限制。
图13为根据本发明一个优选实施例的方法流程图,示出用于对等网络中第一节点、第二节点以及网络设备配合实现建立索引的过程。其中,网络设备30与至少一个第一节点10通信或交互;第一节点10与至少一个第二节点20通过对等网络通信或交互。为简明阐述起见,本实施例中,以一个网络设备30、一个第一节点10以及一个第二节点20进行举例说明,本领域技术人员应能理解,该等举例仅为阐明本发明之目的,而并不应理解为对本发明的任何限制。
具体地,在本实施例中,在步骤S1312中,网络设备30预设第一节点的信息;在步骤S1313中,网络设备30获取登入该对等网络中的至少一节点的信息;在步骤S1314中,网络设备30在所述节点的信息符合所述预设的第一节点信息时,发送第一节点指定信息至该节点;相应的,该节点接收所述第一节点指定信息;在步骤S1315中,该节点根据所述第一节点指定信息指定该节点成为第一节点10;在步骤S1300中,第一节点10获取资源爬取任务;在步骤S1301中,第一节点10将所述资源爬取任务作为第一级资源爬取任务发送至第二节点20,相应地,第二节点20获取所述第一级资源爬取任务;在步骤S1302中,第二节点20根据所述第一级资源爬取任务进行资源爬取,以建立与所述第一级资源爬取任务相对应的第二索引;在步骤S1303中,第二节点20将所述第二索引发送至第一节点10,相应地,第一节点10接收自第二节点20发送的基于所述第一级资源爬取任务的第二索引;在步骤S1304中,第一节点10对所述第二索引进行优选,以建立与所述第二索引相对应的第一索引;在步骤S1316中,第一节点10发送所述第一索引至网络设备30,相应地,网络设备30接收自第一节点10发送的所述第一索引;在步骤S1317中,网络设备30对所述第一索引进行优选,以获取与所述第一索引相对应的本地索引。
请配合参阅图12与图13,在本实施例中,图13所示的第一节点10在步骤S1315、步骤S1303和步骤S1304所执行的步骤与功能分别与图12所示的第一节点10在步骤S1215、步骤S1203和步骤S1204所执行的步骤与功能基本相同,为简明起见,以引用方式包含于此,不再赘述。
图13所示的第二节点20在步骤S1301、步骤S1302和步骤S1303所执行的步骤与功能分别与图12所示的第二节点20在步骤S1201、步骤S1202和步骤S1203所执行的步骤与功能基本相同,为简明起见,以引用方式包含于此,在此不再赘述。
图13所示的网络设备30在步骤S1312、步骤S1313和步骤S1314所执行的步骤与功能分别与图12所示的网络设备30在步骤S1212、步骤S1213和步骤S1214所执行的步骤与功能基本相同,为简明起见,以引用方式包含于此,亦不赘述。
本实施例中,在步骤S1300中,第一节点10获取资源爬取任务。在此,所述资源爬取任务可以来自用户或者来自其他网络设备或用户设备,所述资源爬取任务包括但不限于爬取特定的资源,和/或爬取包括特定资源的网页,或者爬取网络节点。例如,用户向第一节点10输入资源爬取任务,如爬取特定多媒体影音资源、指向、包括和/或链接至该多媒体影音资源的网页,和/或存储该多媒体影音资源的网络节点;相应地,第一节点10通过接收该用户输入的该资源爬取任务获取该资源爬取任务。在此,本领域技术人员应能理解,本发明所述的网络资源以及获取资源爬取任务的方式,并不限于前文所列举之资源,所有存储于现有网络中的各种资源以及网页链接,或者获取资源爬取任务的方式,均不脱离本发明之范畴。
举例而言,在步骤S1300中,第一节点10获取用户输入的资源爬取任务,如爬取影片《乱世佳人》和《飘》,包括《乱世佳人》或《飘》的网页,以及存储《乱世佳人》和/或《飘》的网络节点;在步骤S1301中,第一节点10将该资源爬取任务作为第一级资源爬取任务发送至第二节点20,相应地,第二节点20接收该第一级资源爬取任务;在步骤S1302中,第二节点20根据该第一级资源爬取任务进行资源爬取,并建立如表一所示的第二索引;在步骤S1303中,第二节点20将该第二索引发送至第一节点10,相应地,第一节点10接收该第二索引;在步骤S1304中,第一节点10对该第二索引进行优选,建立如表二所示的第一索引;在步骤S1316中,第一节点10发送所述第一索引至网络设备30,相应地,网络设备30接收自第一节点10发送的所述第一索引;在步骤S1317中,网络设备30对所述第一索引进行优选,以获取与所述第一索引相对应的本地索引。
在本实施例的一个优选示例中,该过程还包括由第一节点10执行的步骤S1305。在步骤S1305中,第一节点10根据其在步骤S1300中获取的资源爬取任务进行资源爬取,以获得与所述资源爬取任务相对应的资源更新信息,并根据所述资源更新信息,更新其在步骤1304中建立的第一索引。在此,所述资源更新信息可以索引形式建立,如表三所示。第一节点10还通过如将所述资源更新信息与所述第一索引合并等方式,更新所述第一索引,更新后的第一索引如表四所示。
优选地,在步骤S1316中,第一节点10发送所述更新后的第一索引至网络设备30,相应地,网络设备30接收所述更新后的第一索引;在步骤S1317中,网络设备30对所述更新后的第一索引进行优选,以获取与所述更新后的第一索引相对应的本地索引。
需要说明的是,本领域技术人员应能理解,第一节点10在步骤S1305中根据资源爬取任务获得资源更新信息的操作,与其在步骤S1301中发送所述资源爬取任务的操作、其在步骤S1303中接收自第二节点20发送的第二索引的操作,以及其在步骤S1304中基于所述第二索引建立第一索引的操作之间不具有顺序关系,第一节点10可以在步骤S1301、步骤S1303以及步骤S1304执行相应操作之前、之中或者之后执行步骤S1305根据资源爬取任务获得资源更新信息的操作。
在本实施例的另一优选示例中,在步骤S1300中,第一节点10获取资源爬取任务;在步骤S1301中,第一节点10对所述资源爬取任务进行拆分,以获得与所述资源爬取任务相对应的资源爬取子任务,并将所述资源爬取子任务作为第一级资源爬取任务发送至第二节点20;相应的,第二节点20接收所述资源爬取子任务,亦即第一级资源爬取任务;在步骤S1302中,第二节点20根据所述第一级资源爬取任务进行资源爬取,以建立与所述第一级资源爬取任务相对应的第二索引;在步骤S1303中,第二节点20将所述第二索引发送至第一节点10,相应地,第一节点10的第一索引接收装置1011接收自第二节点20发送的基于所述资源爬取子任务建立的第二索引;在步骤S1304中,第一节点10对所述第二索引进行优选,以建立与所述第二索引相对应的第一索引;在步骤S1316中,第一节点10发送所述第一索引至网络设备30,相应地,网络设备30接收自第一节点10发送的所述第一索引;在步骤S1317中,第一节点10对所述第一索引进行优选,以获取与所述第一索引相对应的本地索引。
其中,第一任务处理装置1014至少可从两个维度对所述资源爬取任务进行拆分:1)从所述资源爬取任务的相关属性对所述资源爬取任务进行拆分,所述资源爬取任务的相关属性包括但不限于所述资源爬取任务的内容、数量、种类等;2)从第二节点20的相关属性对资源爬取任务进行拆分,所述第二节点20的相关属性包括但不限于所述第二节点的数量、资源爬取性能等。
举例而言,当按照资源爬取任务的内容对所述资源爬取任务进行拆分时,例如,所述资源爬取任务是爬取特定的多媒体影音资源,如影片《乱世佳人》和《飘》以及指向或包括《乱世佳人》和《飘》的网页或节点;第一节点10对所述资源爬取任务按照其内容《乱世佳人》与《飘》进行拆分后,发送给对应的部分第二节点20的第一级资源爬取任务,亦即资源爬取子任务为爬取多媒体影音资源《乱世佳人》,以及指向或包括《乱世佳人》的网页或节点,发送给对应的其他第二节点20的第一级资源爬取任务为爬取多媒体影音资源《飘》,以及指向或包括《飘》的网页或节点。在此,本领域技术人员应能理解,本发明举例的对资源爬取任务进行拆分所依据的条件,仅为阐明本发明之目的,而不应理解为对本发明的任何限制。
本实施例中,在步骤S1316中,第一节点10发送所述第一索引至网络设备30。具体地,第一节点10发送的第一索引可以是对其在步骤S1303中接收的第二索引进行优选后的第一索引,或者经步骤S1305对所述第一索引进行更新后的第一索引。举例而言,第一节点10可以发送如表二所示的第一索引,或发送如表四所示的更新后的第一索引至网络设备30。
优选地,在本实施例中,在步骤S1316中,第一节点10还对所述第一索引进行筛选,以获得筛选后的第一索引,并将筛选后的第一索引发送至网络设备30。具体地,第一节点10对所述第一索引进行筛选的条件包括但不限于根据所述第一索引中资源的资源属性和/或所述第一节点的爬取性能对所述第一索引进行筛选,其中,所述资源的资源属性包括但不限于所述资源的来源权威度、所述资源的更新时间或者所述资源的用户访问量等,所述第一节点的资源爬取性能包括但不限于所述第一节点的爬取频度、所述第一节点的爬取深度、所述第一节点的爬取广度等。本领域技术人员应当了解,本实施例中所例举的对第一索引的筛选方式,仅为阐明本发明起见,而不应理解为对本发明的任何限制。
在本实施例中,在步骤S1316中,与第一节点10相对应的,网络设备30接收自第一节点10发送的第一索引。例如,网络设备30接收第一节点10发送的如表二所示的第一索引,或发送如表四所示的更新后的第一索引。
在步骤S1317中,网络设备30对所述第一索引进行优选,以获取与所述第一索引相对应的本地索引。本实施例中所述优选,包括但不限于对所述多个第二索引进行排序、筛选、去重、合并、和/或对所述第二索引中的资源信息进行权值调整等。具体地,网络设备30可以对表二所示的第一索引进行优选,或对表四所示的更新后的第一索引进行优选,从而建立相应的本地索引如表五所示。
在本实施例中,网络设备30对表二所示的第一索引进行优选,建立了具有最高资源信息权值的索引,即仅包括网页a链接地址的索引。本领域的技术人员应能理解,上述处理方式仅为举例说明优选之方式,而并不应理解为对本发明的任何限制。
图14为本发明另一个优选实施例的方法流程图,示出用于对等网络中第一节点、第二节点以及网络设备配合实现建立索引及进行资源搜索的过程。其中,网络设备30与至少一个第一节点10通信或交互;第一节点10与至少一个第二节点20通过对等网络通信或交互。
具体地,在本实施例中,在步骤S1412中,网络设备30预设第一节点的信息;在步骤S1413中,网络设备30获取登入该对等网络中的至少一节点的信息;在步骤S1414中,网络设备30在所述节点的信息符合所述预设的第一节点信息时,发送第一节点指定信息至该节点;相应的,该节点的节点执行装置1110接收所述第一节点指定信息;在步骤S1415中,该节点根据所述第一节点指定信息指定该节点成为第一节点10;在步骤S1418中,网络设备30获取初始资源爬取任务,并拆分所述初始资源爬取任务,以获取与所述初始资源爬取任务相对应的资源爬取任务;在步骤S1400中,网络设备30发送所述资源爬取任务至第一节点10,相应地,第一节点10接收来自网络设备30的所述资源爬取任务;在步骤S1401中,第一节点10将所述资源爬取任务作为第一级资源爬取任务发送至第二节点20,相应地,第二节点20获取所述第一级资源爬取任务;在步骤S1402中,第二节点20根据所述第一级资源爬取任务进行资源爬取,以建立与所述第一级资源爬取任务相对应的第二索引;在步骤S1403中,第二节点20将所述第二索引发送至第一节点10,相应地,第一节点10接收自第二节点20发送的基于所述第一级资源爬取任务的第二索引;在步骤S1404中,第一节点10对所述第二索引进行优选,以建立与所述第二索引相对应的第一索引;在步骤S1416中,第一节点10发送所述第一索引至网络设备30,相应地,网络设备30接收自第一节点10发送的所述第一索引;在步骤S1417中,网络设备30对所述第一索引进行优选,以获取与所述第一索引相对应的本地索引。
请配合参阅图14与图13,在本实施例中,图14所示的第一节点10在步骤S1415、步骤S1400、步骤S1401、步骤S1403、步骤S1404和步骤S1416中所执行的步骤与功能分别与图13所示的第一节点10在步骤S1315、步骤S1300、步骤S1301、步骤S1303、步骤S1304和步骤S1416中所执行的步骤与功能基本相同,为简明起见,以引用方式包含于此,不再赘述。
优选地,图14所示的第一节点10还可以进一步执行步骤S1405的操作,第一节点10在步骤S1405中所执行的步骤与功能与图13所示的第一节点10在步骤S1305中所执行的步骤与功能基本相同,为简明起见,以引用方式包含于此,不再赘述。
图14所示的第二节点20在步骤S1401、步骤S1402和步骤S1403中所执行的步骤与功能与图13所示的第二节点20在步骤S1301、步骤S1302和步骤S1303中所执行的步骤与功能基本相同,为简明起见,以引用方式包含于此,在此不再赘述。
图14所示的网络装置30在步骤S1412、步骤S1413、步骤S1414、步骤1416和步骤S1417中所执行的步骤与功能与图13所示的网络装置30在步骤S1312、步骤S1313、步骤S1314、步骤1316和步骤S1317中所执行的步骤与功能基本相同,为简明起见,以引用方式包含于此,亦不赘述。
在本实施例中,在步骤S1418中,网络设备30获取初始资源爬取任务,拆分所述初始资源爬取任务,以获取与所述初始资源爬取任务相对应的资源爬取任务;在步骤S1418中,网络设备30发送所述资源爬取任务至第一节点10,相应地,第一节点10接收来自网络设备30的所述资源爬取任务。在此,所述初始资源爬取任务可以来自用户或者来自其他网络设备或用户设备,所述资源爬取任务包括但不限于爬取特定的资源,和/或爬取包括特定资源的网页,或者爬取网络节点。例如,其它网络设备向网络设备30发送资源爬取任务,如爬取特定多媒体影音资源、指向、包括和/或链接至该多媒体影音资源的网页,和/或存储该多媒体影音资源的网络节点;相应地,网络设备30通过接收该来自其它网络设备的资源爬取任务,获取该初始资源爬取任务。在此,本领域技术人员应能理解,本发明所述的网络资源以及获取初始资源爬取任务的方式,并不限于前文所列举之资源,所有存储于现有网络中的各种资源以及网页链接,或者获取初始资源爬取任务的方式,均不脱离本发明之范畴。
在此,网络设备30至少可从两个维度对所述初始资源爬取任务进行拆分:1)从所述初始资源爬取任务的相关属性对所述初始资源爬取任务进行拆分,所述初始资源爬取任务的相关属性包括但不限于所述初始资源爬取任务的内容、数量、种类等;2)从第一节点10的相关属性对初始资源爬取任务进行拆分,所述第一节点10的相关属性包括但不限于所述第一节点10的数量、资源爬取性能等。
举例而言,当按照初始资源爬取任务的内容对所述初始资源爬取任务进行拆分时,例如,所述初始资源爬取任务是爬取特定的多媒体影音资源,如影片《乱世佳人》、《飘》、《Gone with the Wind》、《随风而逝》,以及指向或包括《乱世佳人》、《飘》、《Gone withthe Wind》、《随风而逝》的网页或节点;网络设备30对所述初始资源爬取任务按照其内容进行拆分后,获取对应的部分分别为爬取影片《乱世佳人》、《飘》、《Gone with the Wind》与《随风而逝》,以及爬取指向或包括《乱世佳人》、《飘》、《Gone with the Wind》与《随风而逝》的网页或节点,并将拆分后的任务作为资源爬取任务分别发送至至少一个第一节点10。在此,本领域技术人员应能理解,本发明举例的对初始资源爬取任务进行拆分所依据的条件,仅为阐明本发明之目的,而不应理解为对本发明的任何限制。
在本实施例的一个优选示例中,该过程还进一步包括由网络设备30执行的步骤S1419和步骤S1420。在步骤S1419中,网络设备30获取搜索指令;在步骤S1420中,网络设备30根据所述搜索指令,搜索所述本地索引,以获得与所述搜索指令相对应的本地搜索结果。在此,所述搜索指令可以来自用户或者来自其他网络设备或用户设备。具体地,当网络设备30接收搜索指令,要求搜索一定范围内,所有指向或包括特定媒体资源《乱世佳人》以及《飘》的网页链接与节点地址,在此,所述搜索指令可以来自用户或者来自其他网络设备或用户设备;网络设备30根据所述搜索指令搜索如表五所示的本地索引,并建立相应的本地搜索结果,即所述本地搜索结果包括如表五所示的网页链接。
优选地,该过程还进一步包括由网络设备30、第一节点10执行的以下步骤:在步骤S1406中,网络设备30发送所述搜索指令至第一节点10,相应地,第一节点10接收来自网络设备30的所述搜索指令;在步骤S1407中,第一节点10根据所述搜索指令搜索所述第一索引,以获取与所述搜索指令相对应的第一搜索结果;在步骤S1421中,第一节点10将所述第一搜索结果发送至网络设备30,相应地,网络设备30接收自第一节点10发送的基于所述搜索指令的第一搜索结果;在步骤S1422中,网络设备30根据所述第一搜索结果,更新所述本地搜索结果。优选地,在该优选示例中,第一节点10在步骤S1407中根据所述搜索指令进行搜索的第一索引包括该第一节点10在步骤S1404建立的第一索引和该第一节点10在步骤S1405中更新的第一索引。例如,请同时参阅表一、表二、表三以及表四,当第一节点10接收来自网络设备30的搜索指令,要求搜索一定范围内,所有指向或包括特定媒体资源《乱世佳人》以及《飘》的网页链接与节点地址,该第一节点10根据所述搜索指令搜索如表四所示的更新后的第一索引,获得第一搜索结果,所述第一搜索结果包括如表四所示的网页链接和/或节点的地址信息,并发送所述第一搜索结果至网络设备30,网络设备30根据所述第一搜索结果更新包括如表五所示的网页链接。本领域技术人员应当了解,此处所列举之搜索指令及搜索方式,仅为简明阐述本发明之目的,而不应理解为对本发明的任何限制。
需要说明的是,本领域技术人员应能理解,在本优选示例中,网络设备30可以仅搜索该网络设备30的本地索引,并根据所述本地索引获得相应的本地搜索结果,而无需将所述搜索指令发送至第一节点10,接收自第一节点10发送的基于所述搜索指令的第一搜索结果,并根据所述第一搜索结果,更新所述本地搜索结果。网络设备30将所述搜索指令发送至第一节点10,并接收所述第一搜索结果,以更新所述本地搜索结果的操作,仅作为本优选示例的一个进一步的优选方案,用于阐述本发明之目的,以获得与所述搜索指令相对应的更好的搜索结果,而不应理解为对本发明的任何限制。
在本优选示例的该进一步的优选方案中,更优选地,该过程还进一步包括由第一节点10、第二节点20执行的以下步骤:在步骤S1408中,第一节点10发送所述搜索指令至第二节点20,相应地,第二节点20接收自第一节点10发送的所述搜索指令;在步骤S1409中,第二节点20根据所述搜索指令搜索所述第二索引,以获取与搜索指令相对应的第二搜索结果;在步骤S1410中,第二节点20发送所述第二搜索结果至第一节点10,相应地,第一节点10接收自第二节点20发送的基于所述搜索指令的第二搜索结果;在步骤S1411中,第一节点10根据所述第二搜索结果,更新所述第一搜索结果;在步骤S1421中,第一节点10将所述第一搜索结果发送至网络设备30,相应地,网络设备30接收自第一节点10发送的基于所述搜索指令的第一搜索结果;在步骤S1422中,网络设备30根据所述第一搜索结果,更新所述本地搜索结果。例如,请同时参阅表一、表二、表三、表四以及表五,当第二节点20接收来自第一节点10的搜索指令,要求搜索一定范围内,所有指向或包括特定媒体资源《乱世佳人》以及《飘》的网页链接与节点地址,该第二节点20根据所述搜索指令搜索如表一所示的第二索引,获得第二搜索结果,并将所述第二搜索结果发送至第一节点10,其中,所述第二搜索结果包括如表一所示的网页(a、b、c)的链接地址和节点A、B、C的地址。第一节点10接收所述第二搜索结果,如果第一搜索结果包括如表四所示的网页(x、y、z)的链接地址和/或节点X、Y、Z的地址,则第一节点10依据所述第二搜索结果将所述第一搜索结果更新为包括网页a、b、c、x、y、z的链接地址以及节点A、B、C、X、Y、Z的地址。而网络设备30的本地搜索结果仅包括如表五所示的包括网页a的链接地址,则网络设备30根据所述第一搜索结果将所述本地搜索结果更新为包括网页a、b、c、x、y、z的链接地址以及节点A、B、C、X、Y、Z的地址。本领域技术人员应当了解,此处所列举之搜索指令及搜索方式,以及获得并更新搜索结果之方式,仅为简明阐述本发明之目的,而不应理解为对本发明的任何限制。
需要说明的是,本领域技术人员应能理解,在该优选示例的该进一步的优选方案中,第一节点10可以仅搜索该第一节点10的第一索引,并根据所述第一索引获得相应的第一搜索结果,而无需将所述搜索指令发送至第二节点20,并接收自第二节点20返回的基于所述搜索指令的第二搜索结果,并根据所述第二搜索结果,更新所述第一搜索结果。第一节点10将所述搜索指令发送至第二节点20,并接收所述第二搜索结果,以更新所述第一搜索结果的操作,仅作为该优选方案的进一步优选方案,用于阐述本发明之目的,以获得与所述搜索指令相对应的更好的搜索结果,而不应理解为对本发明的任何限制。
本领域技术人员应能了解,本实施例中所列举之索引建立与更新方式,均系为简明阐述本发明之目的,而不应理解为对本发明的任何限制或限定。任何依照本实施例所阐述之建立、更新索引之方式,均不脱离本发明之范畴。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。