CN105897841A - 用于网络资源处理的调度方法、设备、系统及子调度器 - Google Patents
用于网络资源处理的调度方法、设备、系统及子调度器 Download PDFInfo
- Publication number
- CN105897841A CN105897841A CN201510921205.8A CN201510921205A CN105897841A CN 105897841 A CN105897841 A CN 105897841A CN 201510921205 A CN201510921205 A CN 201510921205A CN 105897841 A CN105897841 A CN 105897841A
- Authority
- CN
- China
- Prior art keywords
- internet resources
- scheduler
- address information
- sub
- total activation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/10—Protocols in which an application is distributed across nodes in the network
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/50—Network services
- H04L67/60—Scheduling or organising the servicing of application requests, e.g. requests for application data transmissions using the analysis and optimisation of the required network resources
Abstract
本发明提供一种用于网络资源处理的调度方法、设备、系统及子调度器,方法包括:第一子调度器从至少一个网络爬虫设备获取网络资源的地址信息;当第一子调度器的网络资源的地址信息的数量超过设定的调度阈值时,将超过调度阈值的超出部分的网络资源的地址信息发送给总调度器,以使总调度器根据接收的超出部分的网络资源的地址信息生成至少一个总调度任务;与第一子调度器不同的第二子调度器接收总调度器分发的总调度任务;第二子调度器根据总调度任务和未超过调度阈值的网络资源的地址信息生成子调度任务;第二子调度器发送子调度任务给对应的网络爬虫设备。本发明实现了仅在网络资源处理量超负荷时,请求总调度器重新调度,降低了总调度器的负载。
Description
技术领域
本发明涉及互联网技术领域,尤其涉及一种用于网络资源处理的调度方法、设备、系统及子调度器。
背景技术
搜索引擎作为网络信息搜寻的工具,它以一定的策略在互联网中搜集、发现信息,对信息进行理解、提取、组织和处理,并为用户提供检索服务。1994年,爬虫程序被应用到索引程序中,Yahoo、Google等相继出现。网络爬虫是搜索引擎系统中十分重要的组成部分,它负责从互联网中搜集网页,这些页面用于建立索引从而为搜索引擎提供支持。
但至今,功能再强大的搜索引擎都仍然存在信息丢失、更新率低、精准率低等问题。用户需要更快、更准、更方便、更有效的查询服务成为搜索引擎技术发展研究追求的目标。而面对越来越庞大的网络资源,提高爬虫程序的速度已成为当前搜索领域的一个焦点问题,但现有的爬虫程序显然不能满足高速爬取的需求。
发明内容
本发明的目的在于,提供一种用于网络资源处理的调度方法、设备、系统及子调度器,以实现仅在网络资源处理量超负荷时,请求总调度器重新分配调度任务,降低总调度器的负载,使得网络资源更快速进入搜索引擎。
根据本发明的一方面,提供一种用于网络资源处理的调度方法,包括:第一子调度器从至少一个网络爬虫设备获取网络资源的地址信息;当所述第一子调度器的网络资源的地址信息的数量超过设定的调度阈值时,所述第一子调度器将超过所述调度阈值的超出部分的网络资源的地址信息发送给总调度器,以使所述总调度器根据接收的超出部分的网络资源的地址信息生成至少一个总调度任务;与第一子调度器不同的第二子调度器接收所述总调度器分发的所述总调度任务;所述第二子调度器根据总调度任务和未超过所述调度阈值的网络资源的地址信息生成子调度任务;所述第二子调度器发送所述子调度任务给对应的网络爬虫设备。
优选地,所述总调度器根据接收的超出部分的网络资源的地址信息生成至少一个总调度任务的处理包括:
所述总调度器获取其他子调度器当前处理网络资源的地址信息的数量和对应的调度阈值;
根据其他子调度器的每一个的调度阈值和当前处理网络资源的地址信息的数量的差值,所述总调度器生成至少一个总调度任务,所述至少一个总调度任务用于指定对应的第二子调度器处理所述超出部分的网络资源的地址信息。
优选地,所述方法还包括:所述第一子调度器发送所述网络资源的地址信息给子去重器,以使所述子去重器判断所述网络资源的地址信息与所述子去重器本地存储的网络资源的地址信息是否一致,如果一致,则不再对判断一致的网络资源的地址信息进行后续的处理。
优选地,所述方法还包括:如果不一致,则所述子去重器将判断不一致的网络资源的地址信息发送给总去重器,以使所述总去重器判断所述网络资源的地址信息与所述总去重器本地存储的网络资源的地址信息是否一致;如果不一致,则所述第一子调度器接收所述总去重器发送的判断不一致的网络资源的地址信息。
根据本发明的另一方面,提供一种用于网络资源处理的调度设备,包括:地址信息获取模块,用于第一子调度器从至少一个网络爬虫设备获取网络资源的地址信息;地址信息发送模块,用于当所述第一子调度器的网络资源的地址信息的数量超过设定的调度阈值时,所述第一子调度器将超过所述调度阈值的超出部分的网络资源的地址信息发送给总调度器,以使所述总调度器根据接收的超出部分的网络资源的地址信息生成至少一个总调度任务;调度任务接收模块,用于与第一子调度器不同的第二子调度器接收所述总调度器分发的所述总调度任务;调度任务生成模块,用于所述第二子调度器根据总调度任务和未超过所述调度阈值的网络资源的地址信息生成子调度任务;调度任务发送模块,用于所述第二子调度器发送所述子调度任务给对应的网络爬虫设备。
优选地,所述地址信息发送模块具体用于所述总调度器获取其他子调度器当前处理网络资源的地址信息的数量和对应的调度阈值;根据其他子调度器的每一个的调度阈值和当前处理网络资源的地址信息的数量的差值,生成至少一个总调度任务,所述至少一个总调度任务用于指定对应的第二子调度器处理所述超出部分的网络资源的地址信息。
优选地,所述地址信息发送模块还用于所述第一子调度器发送所述网络资源的地址信息给子去重器,以使所述子去重器判断所述网络资源的地址信息与所述子去重器本地存储的网络资源的地址信息是否一致,如果一致,则不再对判断一致的网络资源的地址信息进行后续的处理。
优选地,所述地址信息发送模块还用于如果不一致,则所述子去重器将判断不一致的网络资源的地址信息发送给总去重器,以使所述总去重器判断所述网络资源的地址信息与所述总去重器本地存储的网络资源的地址信息是否一致;
所述调度设备还包括:地址信息接收模块,用于如果不一致,则所述第一子调度器接收所述总去重器发送的判断不一致的网络资源的地址信息。
根据本发明的另一方面,提供一种子调度器,包括:信息获取模块,用于从至少一个网络爬虫设备获取网络资源的地址信息;信息发送模块,用于当本地的网络资源的地址信息的数量超过设定的调度阈值时,将超过所述调度阈值的超出部分的网络资源的地址信息发送给总调度器,以使所述总调度器根据接收的超出部分的网络资源的地址信息生成至少一个总调度任务;任务接收模块,用于当本地的网络资源的地址信息的数量未超过设定的调度阈值时,接收所述总调度器分发的所述总调度任务;任务生成模块,用于根据所述总调度任务对应的网络资源的地址信息和未超过设定的调度阈值的网络资源的地址信息生成子调度任务;任务发送模块,用于发送所述子调度任务给对应的网络爬虫设备。
根据本发明的另一方面,提供一种用于网络资源处理的调度系统,包括:总调度器和分别与所述总调度器通信连接的至少一个如前述实施例所述的子调度器,所述总调度器接收超过设定调度阈值的超出部分的网络资源的地址信息,并根据接收的超出部分的网络资源的地址信息生成至少一个总调度任务,分别发送给对应的子调度器。
根据本发明实施例提供的用于网络资源处理的调度方法、设备、系统及子调度器,通过子调度器在网络资源的地址信息的数量超过设定调度阈值时,发送超过调度阈值的超出部分的网络资源的地址信息给总调度器,使其重新分配调度任务,进一步其他未超过调度阈值的子调度器根据总调度器分发的总调度任务和未超过调度阈值的网络资源的地址信息生成子调度任务,并发送给对应的网络爬虫设备。实现了仅在网络资源处理量超负荷时,请求总调度器重新分配调度任务,从而降低了总调度器的负载,使得网络资源更加快速地进入搜索引擎。
附图说明
图1是示出根据本发明实施例一的用于网络资源处理的调度方法的流程图;
图2是示出根据本发明实施例二的用于网络资源处理的调度设备的逻辑框图;
图3是示出根据本发明实施例三的子调度器的逻辑框图;
图4是示出根据本发明实施例四的用于网络资源处理的调度系统的结构示意图。
具体实施方式
本发明的基本构思是,提供一种基于网络资源处理的两重调度的技术方案。具体来说,在网络资源的地址信息的数量超过设定调度阈值时,发送超过调度阈值的超出部分的网络资源的地址信息给总调度器,使其重新分配调度任务,进一步其他未超过调度阈值的子调度器根据总调度器分发的总调度任务和未超过调度阈值的超出部分的网络资源的地址信息生成子调度任务,并发送给对应的网络爬虫设备。实现了仅在网络资源处理量超负荷时,请求总调度器重新分配调度任务,从而降低了总调度器的负载,使得网络资源更加快速地进入搜索引擎。
此外,还可增加两重去重处理,即总去重器和子去重器实现,同理可知,子去重器使得总去重器的负载降低,极大地提升网络资源处理的效率和速度。
下面结合附图详细描述本发明的示例性实施例用于网络资源处理的调度方法、设备、系统及子调度器。
实施例一
图1是示出根据本发明实施例一的用于网络资源处理的调度方法的流程图。以下以子调度器为本发明实施例的执行主体进行详细说明。
参照图1,在步骤S110,第一子调度器从至少一个网络爬虫设备获取网络资源的地址信息。
需要说明的是,网络资源的地址信息可为网页的统一资源定位符URL。也就是说,网络爬虫设备在发现URL之后,并不是直接就根据URL进行网络资源的下载,而是将URL告知子调度器,由此,子调度器就可获取到网络爬虫设备发送的网络资源的地址信息。
在步骤S120,当第一子调度器的网络资源的地址信息的数量超过设定调度阈值时,第一子调度器将超过调度阈值的超出部分的网络资源的地址信息发送给总调度器,以使总调度器根据接收的超出部分的网络资源的地址信息生成至少一个总调度任务。
具体来说,第一子调度器在获取到网络爬虫设备发送的网络资源的地址信息之后,会判断自身的网络资源处理量是否超负荷,如果超负荷,就将超出部分(即超过调度阈值的网络资源的地址信息)发送给总调度器。
根据本发明的优选实施例,前述总调度器根据接收的超出部分的网络资源的地址信息生成至少一个总调度任务的处理可以包括:总调度器获取其他子调度器当前处理网络资源的地址信息的数量和对应的调度阈值;根据其他子调度器的每一个的调度阈值和当前处理网络资源的地址信息的数量的差值,总调度器生成至少一个总调度任务,至少一个总调度任务用于指定对应的第二子调度器处理超出部分的网络资源的地址信息。
也就是说,总调度器需要先获取其他子调度器的网络资源处理情况,即前处理网络资源的地址信息的数量和对应的调度阈值,例如,某子调度器当前处理的网络资源的地址信息的数量为900,调度阈值为1000,可见该子调度器为未超负荷的子调度器,假设前述超出部分网络资源的地址信息数量为200,那么可将其中的100个生成一个总调度任务发送给该未超负荷的子调度器。同理,另外100个生成一个总调度任务发送给另一未超负荷的子调度器。
在步骤S130,与第一子调度器不同的第二子调度器接收总调度器分发的总调度任务。
这里需要强调的是,“第一”、“第二”只是一种用于区别不同子调度器的指代,并不用以限定具体的子调度器。具体地,第二子调度器就是如前所述的网络资源处理量未超负荷的子调度器,从而接收总调度器发送的总调度任务,继续做相应的处理。
在步骤S140,第二子调度器根据总调度任务的网络资源的地址信息和未超过调度阈值的网络资源的地址信息生成子调度任务。
在步骤S150,第二子调度器发送子调度任务给对应的网络爬虫设备。
在具体的实现方式中,通常,由子调度器对16个网络爬虫设备进行调度和管理。这其中包括了URL打散、URL比例再分配、设置URL的优先级等等。因此,需要子调度器根据总调度任务和未超过调度阈值的URL生成子调度任务,然后将子调度任务分发给这16个网络爬虫设备。
本发明实施例的用于网络资源处理的调度方法,通过子调度器在网络资源的地址信息的数量超过设定调度阈值时,发送超过调度阈值的超出部分的网络资源的地址信息给总调度器,使其重新分配调度任务,进一步其他未超过调度阈值的子调度器根据总调度器分发的总调度任务和未超过调度阈值的网络资源的地址信息生成子调度任务,并发送给对应的网络爬虫设备。实现了仅在网络资源处理量超负荷时,请求总调度器重新分配调度任务,从而降低了总调度器的负载,使得网络资源更加快速地进入搜索引擎。
在上述实施例的基础之上,为了避免由于重复爬取降低了网络爬虫设备的网络资源处理效率,进一步地,用于网络资源处理的调度方法还可包括:第一子调度器发送网络资源的地址信息给子去重器,以使子去重器判断网络资源的地址信息与子去重器本地存储的网络资源的地址信息是否一致,如果一致,则不再对判断一致的网络资源的地址信息进行后续的处理。
更进一步地,用于网络资源处理的调度方法还可包括:如果不一致,则子去重器将判断不一致的网络资源的地址信息发送给总去重器,以使总去重器判断网络资源的地址信息与总去重器本地存储的网络资源的地址信息是否一致;如果不一致,则第一子调度器接收总去重器发送的判断不一致的网络资源的地址信息。
在实际应用中,URL去重是网络资源处理中一项关键步骤,由于运行中的网络爬虫主要阻塞在网络交互中,因此避免重复的网络交互至关重要。网络爬虫一般会将待抓取的URL放在一个队列中,从抓取后的网页中提取到新的URL,在新的URL被放入队列之前,首先要确定这些新的URL是否被抓取过,如果之前已经抓取过了,就不再放入队列了。因此,基于同样的技术构思,设置两重去重,同样地,子去重器使得总去重器的负载降低,极大地提升网络资源处理的效率和速度。
实施例二
基于相同的技术构思,图2是示出根据本发明实施例二的用于网络资源处理的调度设备的逻辑框图。可用于执行如图1所示的实施例的方法步骤。
参照图2,用于网络资源处理的调度设备包括地址信息获取模块210、地址信息发送模块220、调度任务接收模块230、调度任务生成模块240和调度任务发送模块250。
地址信息获取模块210用于第一子调度器从至少一个网络爬虫设备获取网络资源的地址信息;
地址信息发送模块220用于当第一子调度器的网络资源的地址信息的数量超过设定的调度阈值时,第一子调度器将超过调度阈值的超出部分的网络资源的地址信息发送给总调度器,以使总调度器根据接收的超出部分的网络资源的地址信息生成至少一个总调度任务;
调度任务接收模块230用于与第一子调度器不同的第二子调度器接收总调度器分发的总调度任务;
调度任务生成模块240用于第二子调度器根据总调度任务和未超过调度阈值的网络资源的地址信息生成子调度任务;
调度任务发送模块250用于第二子调度器发送子调度任务给对应的网络爬虫设备。
具体地,地址信息发送模块220可用于总调度器获取其他子调度器当前处理网络资源的地址信息的数量和对应的调度阈值;根据其他子调度器的每一个的调度阈值和当前处理网络资源的地址信息的数量的差值,生成至少一个总调度任务,至少一个总调度任务用于指定对应的第二子调度器处理超出部分的网络资源的地址信息。
进一步地,地址信息发送模块220还可用于第一子调度器发送网络资源的地址信息给子去重器,以使子去重器判断网络资源的地址信息与子去重器本地存储的网络资源的地址信息是否一致,如果一致,则不再对判断一致的网络资源的地址信息进行后续的处理。
更进一步地,地址信息发送模块220还可用于如果不一致,则子去重器将判断不一致的网络资源的地址信息发送给总去重器,以使总去重器判断网络资源的地址信息与总去重器本地存储的网络资源的地址信息是否一致;
调度设备还可包括:地址信息接收模块(图中未示出)用于如果不一致,则第一子调度器接收总去重器发送的判断不一致的网络资源的地址信息。
本发明实施例的用于网络资源处理的调度设备,通过子调度器在网络资源的地址信息的数量超过设定调度阈值时,发送超过调度阈值的超出部分的网络资源的地址信息给总调度器,使其重新分配调度任务,进一步其他未超过调度阈值的子调度器根据总调度器分发的总调度任务和未超过调度阈值的网络资源的地址信息生成子调度任务,并发送给对应的网络爬虫设备。实现了仅在网络资源处理量超负荷时,请求总调度器重新分配调度任务,从而降低了总调度器的负载,使得网络资源更加快速地进入搜索引擎。
实施例三
基于相同的技术构思,图3是示出根据本发明实施例三的子调度器的逻辑框图。
参照图3,子调度器包括信息获取模块310、信息发送模块320、任务接收模块330、任务生成模块340和任务发送模块350。
信息获取模块310用于从至少一个网络爬虫设备获取网络资源的地址信息。
这里,网络资源的地址信息可为网页的统一资源定位符URL。
信息发送模块320用于当本地的网络资源的地址信息的数量超过设定的调度阈值时,将超过调度阈值的超出部分的网络资源的地址信息发送给总调度器,以使总调度器根据接收的超出部分的网络资源的地址信息生成至少一个总调度任务。
任务接收模块330用于当本地的网络资源的地址信息的数量未超过设定的调度阈值时,接收总调度器分发的总调度任务。
任务生成模块340用于根据总调度任务对应的网络资源的地址信息和未超过设定的调度阈值的网络资源的地址信息生成子调度任务。
任务发送模块350用于发送子调度任务给对应的网络爬虫设备。
本发明实施例的子调度器,一方面,通过在网络资源的地址信息的数量超过设定调度阈值时,发送超过调度阈值的超出部分的网络资源的地址信息给总调度器,使其重新分配调度任务;另一方面,当本地的网络资源的地址信息的数量未超过设定的调度阈值时接收总调度器分发的总调度任务,进一步根据总调度任务对应的网络资源的地址信息和未超过设定的调度阈值的网络资源的地址信息生成子调度任务,并发送给对应的网络爬虫设备。实现了仅在网络资源处理量超负荷时,请求总调度器重新分配调度任务,从而降低了总调度器的负载。并且在网络资源处理量未超负荷时,接收总调度器分发的总调度任务进行相应处理,使得网络资源更加快速地进入搜索引擎。
实施例四
本发明实施例还提供一种用于网络资源处理的调度系统,图4是示出根据本发明实施例四的用于网络资源处理的调度系统的结构示意图。
参照图4,用于网络资源处理的调度系统包括:总调度器410和分别与总调度器通信连接的至少一个如前述实施例的子调度器420,总调度器410接收超过设定调度阈值的超出部分的网络资源的地址信息,并根据接收的超出部分的网络资源的地址信息生成至少一个总调度任务,分别发送给对应的子调度器420。在实际应用中,与总调度器通信的是16个子调度器,由总调度器对这16个子调度器进行控制和管理。
本发明实施例的用于网络资源处理的调度系统,在网络资源的地址信息的数量超过设定调度阈值时,子调度器发送超过调度阈值的超出部分的网络资源的地址信息给总调度器,使其重新分配调度任务,总调度器根据接收的网络资源的地址信息生成至少一个总调度任务,分别发送给对应的子调度器。实现了仅在网络资源处理量超负荷时,请求总调度器重新分配调度任务,从而降低了总调度器的负载,使得网络资源更加快速地进入搜索引擎。
需要指出,根据实施的需要,可将本申请中描述的各个部件/步骤拆分为更多部件/步骤,也可将两个或多个部件/步骤或者部件/步骤的部分操作组合成新的部件/步骤,以实现本发明的目的。
上述根据本发明的方法可在硬件、固件中实现,或者被实现为可存储在记录介质(诸如CD ROM、RAM、软盘、硬盘或磁光盘)中的软件或计算机代码,或者被实现通过网络下载的原始存储在远程记录介质或非暂时机器可读介质中并将被存储在本地记录介质中的计算机代码,从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件(诸如ASIC或FPGA)的记录介质上的这样的软件处理。可以理解,计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件(例如,RAM、ROM、闪存等),当所述软件或计算机代码被计算机、处理器或硬件访问且执行时,实现在此描述的处理方法。此外,当通用计算机访问用于实现在此示出的处理的代码时,代码的执行将通用计算机转换为用于执行在此示出的处理的专用计算机。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
Claims (10)
1.一种用于网络资源处理的调度方法,其特征在于,所述方法包括:
第一子调度器从至少一个网络爬虫设备获取网络资源的地址信息;
当所述第一子调度器的网络资源的地址信息的数量超过设定的调度阈值时,所述第一子调度器将超过所述调度阈值的超出部分的网络资源的地址信息发送给总调度器,以使所述总调度器根据接收的超出部分的网络资源的地址信息生成至少一个总调度任务;
与第一子调度器不同的第二子调度器接收所述总调度器分发的所述总调度任务;
所述第二子调度器根据总调度任务和未超过所述调度阈值的网络资源的地址信息生成子调度任务;
所述第二子调度器发送所述子调度任务给对应的网络爬虫设备。
2.根据权利要求1所述的方法,其特征在于,所述总调度器根据接收的超出部分的网络资源的地址信息生成至少一个总调度任务的处理包括:
所述总调度器获取其他子调度器当前处理网络资源的地址信息的数量和对应的调度阈值;
根据其他子调度器的每一个的调度阈值和当前处理网络资源的地址信息的数量的差值,生成至少一个总调度任务,所述至少一个总调度任务用于指定对应的第二子调度器处理所述超出部分的网络资源的地址信息。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
所述第一子调度器发送所述网络资源的地址信息给子去重器,以使所述子去重器判断所述网络资源的地址信息与所述子去重器本地存储的网络资源的地址信息是否一致,如果一致,则不再对判断一致的网络资源的地址信息进行后续的处理。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
如果不一致,则所述子去重器将判断不一致的网络资源的地址信息发送给总去重器,以使所述总去重器判断所述网络资源的地址信息与所述总去重器本地存储的网络资源的地址信息是否一致;
如果不一致,则所述第一子调度器接收所述总去重器发送的判断不一致的网络资源的地址信息。
5.一种用于网络资源处理的调度设备,其特征在于,所述调度设备包括:
地址信息获取模块,用于第一子调度器从至少一个网络爬虫设备获取网络资源的地址信息;
地址信息发送模块,用于当所述第一子调度器的网络资源的地址信息的数量超过设定的调度阈值时,所述第一子调度器将超过所述调度阈值的超出部分的网络资源的地址信息发送给总调度器,以使所述总调度器根据接收的超出部分的网络资源的地址信息生成至少一个总调度任务;
调度任务接收模块,用于与第一子调度器不同的第二子调度器接收所述总调度器分发的所述总调度任务;
调度任务生成模块,用于所述第二子调度器根据总调度任务和未超过所述调度阈值的网络资源的地址信息生成子调度任务;
调度任务发送模块,用于所述第二子调度器发送所述子调度任务给对应的网络爬虫设备。
6.根据权利要求5所述的调度设备,其特征在于,所述地址信息发送模块具体用于所述总调度器获取其他子调度器当前处理网络资源的地址信息的数量和对应的调度阈值;根据其他子调度器的每一个的调度阈值和当前处理网络资源的地址信息的数量的差值,生成至少一个总调度任务,所述至少一个总调度任务用于指定对应的第二子调度器处理所述超出部分的网络资源的地址信息。
7.根据权利要求5所述的调度设备,其特征在于,所述地址信息发送模块还用于所述第一子调度器发送所述网络资源的地址信息给子去重器,以使所述子去重器判断所述网络资源的地址信息与所述子去重器本地存储的网络资源的地址信息是否一致,如果一致,则不再对判断一致的网络资源的地址信息进行后续的处理。
8.根据权利要求7所述的调度设备,其特征在于,所述地址信息发送模块还用于如果不一致,则所述子去重器将判断不一致的网络资源的地址信息发送给总去重器,以使所述总去重器判断所述网络资源的地址信息与所述总去重器本地存储的网络资源的地址信息是否一致;
所述调度设备还包括:地址信息接收模块,用于如果不一致,则所述第一子调度器接收所述总去重器发送的判断不一致的网络资源的地址信息。
9.一种子调度器,其特征在于,所述子调度器包括:
信息获取模块,用于从至少一个网络爬虫设备获取网络资源的地址信息;
信息发送模块,用于当本地的网络资源的地址信息的数量超过设定的调度阈值时,将超过所述调度阈值的超出部分的网络资源的地址信息发送给总调度器,以使所述总调度器根据接收的超出部分的网络资源的地址信息生成至少一个总调度任务;
任务接收模块,用于当本地的网络资源的地址信息的数量未超过设定的调度阈值时,接收所述总调度器分发的所述总调度任务;
任务生成模块,用于根据所述总调度任务对应的网络资源的地址信息和未超过设定的调度阈值的网络资源的地址信息生成子调度任务;
任务发送模块,用于发送所述子调度任务给对应的网络爬虫设备。
10.一种用于网络资源处理的调度系统,其特征在于,所述调度系统包括总调度器和分别与所述总调度器通信连接的至少一个如权利要求9所述的子调度器,所述总调度器接收超过设定调度阈值的超出部分的网络资源的地址信息,并根据接收的超出部分的网络资源的地址信息生成至少一个总调度任务,分别发送给对应的子调度器。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510921205.8A CN105897841A (zh) | 2015-12-11 | 2015-12-11 | 用于网络资源处理的调度方法、设备、系统及子调度器 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510921205.8A CN105897841A (zh) | 2015-12-11 | 2015-12-11 | 用于网络资源处理的调度方法、设备、系统及子调度器 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105897841A true CN105897841A (zh) | 2016-08-24 |
Family
ID=57002373
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510921205.8A Pending CN105897841A (zh) | 2015-12-11 | 2015-12-11 | 用于网络资源处理的调度方法、设备、系统及子调度器 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105897841A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107329969A (zh) * | 2017-05-23 | 2017-11-07 | 合肥智权信息科技有限公司 | 一种基于多次校验的数据信息更新系统和方法 |
CN110928673A (zh) * | 2018-09-20 | 2020-03-27 | 北京国双科技有限公司 | 任务的分配方法及装置 |
CN111367693A (zh) * | 2020-03-13 | 2020-07-03 | 苏州浪潮智能科技有限公司 | 基于消息队列调度插件任务的方法、系统、设备及介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103491165A (zh) * | 2013-09-22 | 2014-01-01 | 复旦大学 | 自动检测屏蔽的通用分布式爬虫系统 |
CN103559083A (zh) * | 2013-10-11 | 2014-02-05 | 北京奇虎科技有限公司 | 网页爬取任务调度方法与任务调度器 |
-
2015
- 2015-12-11 CN CN201510921205.8A patent/CN105897841A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103491165A (zh) * | 2013-09-22 | 2014-01-01 | 复旦大学 | 自动检测屏蔽的通用分布式爬虫系统 |
CN103559083A (zh) * | 2013-10-11 | 2014-02-05 | 北京奇虎科技有限公司 | 网页爬取任务调度方法与任务调度器 |
Non-Patent Citations (1)
Title |
---|
刘爽: "面向广域网的分布式搜索引擎中任务调度技术的研究", 《中国优秀硕士学位论文全文数据库—信息科技辑》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107329969A (zh) * | 2017-05-23 | 2017-11-07 | 合肥智权信息科技有限公司 | 一种基于多次校验的数据信息更新系统和方法 |
CN110928673A (zh) * | 2018-09-20 | 2020-03-27 | 北京国双科技有限公司 | 任务的分配方法及装置 |
CN111367693A (zh) * | 2020-03-13 | 2020-07-03 | 苏州浪潮智能科技有限公司 | 基于消息队列调度插件任务的方法、系统、设备及介质 |
CN111367693B (zh) * | 2020-03-13 | 2022-12-13 | 苏州浪潮智能科技有限公司 | 基于消息队列调度插件任务的方法、系统、设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110727512B (zh) | 集群资源调度方法、装置、设备及储存介质 | |
KR102198680B1 (ko) | 확장 가능한 멀티-스테이지 데이터 처리 시스템들에서의 효율적인 데이터 캐싱 관리 | |
US20100281482A1 (en) | Application efficiency engine | |
DE112016004801T5 (de) | Arbeitslastzuweisung für computerressourcen | |
CN106331150A (zh) | 用于调度云服务器的方法和装置 | |
CN104301404A (zh) | 一种基于虚拟机的调整业务系统资源的方法及装置 | |
CN112486788B (zh) | 一种工作量评估方法、装置、电子设备和可读存储介质 | |
CN113867959A (zh) | 一种训练任务资源调度方法、装置、设备及介质 | |
CN105897841A (zh) | 用于网络资源处理的调度方法、设备、系统及子调度器 | |
CN107861811A (zh) | 工作流系统中的任务信息传输方法、装置和计算机设备 | |
CN109144734A (zh) | 一种容器资源配额分配方法和装置 | |
CN104679590A (zh) | 分布式计算系统中的Map优化方法及装置 | |
CN107506315A (zh) | 存储控制器 | |
CN104239520B (zh) | 一种基于历史信息的hdfs数据块放置策略 | |
CN112019577A (zh) | 专属云存储实现方法、装置、计算设备及计算机存储介质 | |
CN113760499A (zh) | 调度计算单元的方法、装置、计算设备及介质 | |
CN104735063A (zh) | 一种用于云基础设施的安全评测方法 | |
CN105335376A (zh) | 一种流处理方法、装置及系统 | |
CN102571854A (zh) | 网络数据采集方法及装置 | |
CN108243238A (zh) | 一种性能数据的采集方法及装置 | |
CN109302723B (zh) | 一种基于互联网的多节点实时无线电监测控制方法 | |
CN107239328A (zh) | 任务分配方法及装置 | |
CN112822306B (zh) | 代理ip动态管理方法、设备及计算机可读存储介质 | |
CN105549911B (zh) | Nvram的数据传输方法和装置 | |
CN108958917A (zh) | 云计算的任务调度方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20160824 |