CN102868639A - 基于站点配额的均衡调度系统及方法 - Google Patents

基于站点配额的均衡调度系统及方法 Download PDF

Info

Publication number
CN102868639A
CN102868639A CN2012103763937A CN201210376393A CN102868639A CN 102868639 A CN102868639 A CN 102868639A CN 2012103763937 A CN2012103763937 A CN 2012103763937A CN 201210376393 A CN201210376393 A CN 201210376393A CN 102868639 A CN102868639 A CN 102868639A
Authority
CN
China
Prior art keywords
time
website
domain name
page
scheduled time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2012103763937A
Other languages
English (en)
Other versions
CN102868639B (zh
Inventor
卢宏林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Qihoo Technology Co Ltd
Qizhi Software Beijing Co Ltd
Original Assignee
Beijing Qihoo Technology Co Ltd
Qizhi Software Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Qihoo Technology Co Ltd, Qizhi Software Beijing Co Ltd filed Critical Beijing Qihoo Technology Co Ltd
Priority to CN201210376393.7A priority Critical patent/CN102868639B/zh
Publication of CN102868639A publication Critical patent/CN102868639A/zh
Application granted granted Critical
Publication of CN102868639B publication Critical patent/CN102868639B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种基于站点配额的均衡调度系统,涉及互联网技术领域,该系统包括:调度任务获取模块,适于获取站点的域名队列中的调度任务;调度模块,适于对所述调度任务所指定的服务器按照预配置的一次可调度页面数从所述服务器中下载相应数量的页面;其中,所述调度任务获取模块适于按预定的任务优先级获取站点的域名队列中的调度任务。本发明还公开了一种基于站点配额的均衡调度方法。根据本发明的基于站点配额的均衡调度系统将方法保证所有站点在任何情况下都能获得一定的下载机会。同时,可以根据实际情况设置不同的配额限制,以兼顾效率与时效性,满足不同搜索产品的需求。这也为全网搜索能与垂直搜索统一处理奠定了基础。

Description

基于站点配额的均衡调度系统及方法
技术领域
本发明涉及互联网技术领域,具体涉及一种基于站点配额的均衡调度系统及方法。
背景技术
对于搜索引擎来说,从互联网上抓取页面是其处理的第一步。然而互联网累积的页面数巨大,而每天新更新和新产生的页面数同样非常巨大。如何及时地获取这些页面,是搜索引擎面临的首要问题。为了能及时地抓取这些海量页面,必须进行合理而有效的调度。因此,采用何种调度算法就非常重要了。
目前,网页搜索在进行网页抓取调度时,对于新发现的页面按顺序进行排队。对于历史页面,则根据历史页面的更新频率来决定其重新调度的频度。
在网页搜索中,由于所有页面都采用统一的策略,下载延迟的时间几乎都是按天来计的。这对于很多垂直搜索来说是无法容忍的。
特殊情况下,大数据量网站将影响其他网站的及时处理。如果服务器数量不足,一些数据量大的网站的页面,将占去大部分处理能力,导致其他网站无法及时处理。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的基于站点配额的均衡调度系统及方法。
依据本发明的一个方面,提供了一种基于站点配额的均衡调度系统,包括:
调度任务获取模块,适于获取站点的域名队列中的调度任务;
调度模块,适于对所述调度任务所指定的服务器按照预配置的一次可调度页面数从所述服务器中下载相应数量的页面。
可选地,所述调度任务获取模块适于按预定的任务优先级获取站点的域名队列中的调度任务。
可选地,所述系统还包括:反馈调整模块,适于在调度一个页面后将所述服务器的上次调度时间更新为所述上次调度时间加上页面超时时间。
可选地,所述系统还包括:反馈调整模块,适于在下载一个页面后将所述服务器的上次调度时间更新为所述上次调度时间减去回调时间,所述回调时间为页面超时时间与所述页面下载时间之差。
可选地,当页面实际下载时间小于预设的下载耗时,则所述页面下载时间为所述预设的下载耗时,否则为页面实际下载时间。
可选地,所述系统还包括:配额分配模块,具体包括:
站点结构定位模块,适于获取当前服务器上的站点总数,根据站点序号,直接定位站点结构;
域名配额分配模块,适于从站点结构中获取该站点的域名总数和首尾域名序号,对站点域名按上次调度时间进行排序,从选择排序后的域名中选择预定数量的域名;
域名IP定位模块,适于对选定的域名根据其域名IP总数和域名IP首尾序号定位其域名I P地址,通过域名I P中的IP偏移定位IP结构地址,依次选取并记录IP的上次调度时间,选择上次调度时间最早的IP对应的服务器;
调度时间设置模块,适于定位IP结构后,比较IP结构里的上次调度时间与当前时间。如果上次调度时间大于或等当前时间,不为该服务器分配所述一次可调度页面数,如果上次调度时间小于当前时间,为该服务器分配所述一次可调度页面数,同时将该IP的上次调度时间置为当前时间;
循环分配模块,适于如果该域名中IP结构分配完成,循环处理下一个域名,否则在剩下的IP中选择上次调度时间最早的一个IP继续处理,当前站点中所有域名分配完成后,将站点序号加1,以便处理下一个站点,如果站点数达到最大值,序号重置为0,如果在所有站点都检查过一次后没有可分配站点,休眠预定时间后再对所有站点循环分配。
可选地,预定时间为1秒。
根据本发明的另一方面,提供了基于站点配额的均衡调度方法,包括以下步骤:
获取站点的域名队列中的调度任务;
对所述调度任务所指定的服务器按照预配置的一次可调度页面数从所述服务器中下载相应数量的页面。
可选地,按预定的任务优先级获取站点的域名队列中的调度任务。
可选地,调度一个页面后还包括步骤:将所述服务器的上次调度时间更新为所述上次调度时间加上页面超时时间。
可选地,下载一个页面后还包括步骤:将所述服务器的上次调度时间更新为所述上次调度时间减去回调时间,所述回调时间为页面超时时间与所述页面下载时间之差。
可选地,当页面实际下载时间小于预设的下载耗时,则所述页面下载时间为所述预设的下载耗时,否则为页面实际下载时间。
可选地,对所述调度任务中的服务器按照预配置的一次可调度页面数从所述服务器中下载相应数量的页面具体包括:
获取当前服务器上的站点总数,根据站点序号,直接定位站点结构;
从站点结构中获取该站点的域名总数和首尾域名序号;
对站点域名按上次调度时间进行排序,从排序后的域名中选择预定数量的域名;
对选定的域名根据其域名IP总数和域名IP首尾序号定位其域名IP地址,通过域名IP中的IP偏移定位IP结构地址,依次选取并记录各IP的上次调度时间,选择上次调度时间最早的IP对应的服务器;
定位IP结构后,比较IP结构里的上次调度时间与当前时间。如果上次调度时间大于或等于当前时间,不为该服务器分配所述一次可调度页面数,如果上次调度时间小于当前时间,为该服务器分配所述一次可调度页面数,同时将该IP的上次调度时间置为当前时间;
如果该域名中IP结构分配完成,循环处理下一个域名,否则在剩下的IP中选择上次调度时间最早的一个IP继续处理;
当前站点中所有域名分配完成后,将站点序号加1,以便处理下一个站点,如果站点数达到最大值,序号重置为0,如果在所有站点都检查过一次后没有可分配站点,休眠预定时间后再对所有站点循环分配。
可选地,预定时间为1秒。
根据本发明的基于站点配额的均衡调度系统将方法保证所有站点在任何情况下都能获得一定的下载机会。同时,可以根据实际情况设置不同的配额限制,以兼顾效率与时效性,满足不同搜索产品的需求。这也为全网搜索能与垂直搜索统一处理奠定了基础。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了根据本发明一个实施例的基于站点配额的均衡调度方法流程图;
图2示出了图1中步骤S120的具体流程图;
图3示出了根据本发明一个实施例的基于站点配额的均衡调度系统结构示意图;
图4示出了图3中调度模块具体结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
本实施例的基于站点配额的均衡调度方法流程如图1所示,包括:
步骤S110,获取站点的域名队列中的调度任务。可以从全网搜索系统的域名队列中获取调度任务。
步骤S120,对调度任务所指定的服务器按照预配置的一次可调度页面数从服务器中下载相应数量的页面。通过控制从服务器中下载网页的数量,保证了所有站点在任何情况下都能获得一定的下载机会,不会因为某些数据量大的网站的页面,将占去大部分下载机会,导致其他网站无法及时下载及处理。
进一步地,若域名队列中的任务具有优先级,则按预定的任务优先级获取站点的域名队列中的调度任务。
在从每台网站服务器下载网页时,除了限制一定下载数量以外还要通过一定的调度算法控制在何时下载这一次可调度页面数量的网页,以保证网站服务器在自身的压力容忍范围内。压力控制必须针对ip,即服务器(一般来说,一个ip对应一台网站的服务器,所以压力控制必须按ip进行以免对网站特定服务器造成太大的压力。ip与域名对应,一个域名可以有多个ip,也可能只有一个ip。一个url里可能使用的是域名,也可能直接使用ip),一个ip可能同时属于多个域名,所以对于一个ip的反复调度过程中,就要对所属域名进行轮转调度,举例说,如果有两个域名对应同一个ip,那么这次调度该ip时调度了第一个域名的一批url,那么下次调度该ip时就应该调度另一个域名的一批url。因此,需要控制服务器中页面的调度时间。
在调度一个页面后还将该页面的上次调度时间更新为上次调度时间加上页面超时时间,其中,上次调度时间为页面的一个属性,每当调用该页面后就更新该属性,即更新为:上次调度时间加上页面超时时间。也就是说在一个页面超时时间内不再调度该页面。
由于不同页面的下载时间有长有短,因此当页面下载完成后,除非页面真的超时了,那么在页面超时时间内再无法得到调度,若未超时,则下载一个页面后还将该页面的上次调度时间更新为上次调度时间减去回调时间,所述回调时间为页面超时时间与页面下载时间之差。其中,为了方便对同一站点同一管理,设置一个约定时间为页面的下载时间,若页面实际下载时间小于预设的下载时间,则页面下载时间为所述约定时间,否则为页面实际下载时间。
例如:一个ip上(一台网站服务器)最快不能超过5秒(约定时间)下载一个页面,但有的时候网站非常忙,可能10秒甚至超过了超时时间都无法下载一个页面。所以为了保证不给服务器压力太大,每次调度时直接将下次可下载时间增加了一个超时时间,比如说60秒。这样这个ip在60秒内都不能被再次调度到,而不是最初的约定时间(上述5秒)。由于只有下载程序清楚这个页面下载用了多长时间。如果这个页面最终超时了,也就是说下载耗时为全部超时时间,如60秒。那么这个时间就不需要在调度了,说明这个网站确实很忙,5秒调度一个页面根本就下载不过来。但如果下载耗时少于超时时间,那就要分两种情况。一种情况是下载时间甚至少于约定的最快时间,如5秒。那么这时的回调时间应该是超时时间减去最快约定时间,就是回调55秒,即将上次调度时间设置为:上次调度时间加上5秒,在这5秒之后可调度该页面。因为如果回调更多的话,就打破了最快5秒下载一个页面的约定。另一种情况是如果下载耗时超过了约定的时间,比如15秒,这时的回调时间才应该是超时时间减去实际下载时间,也就是回调45秒。这样在下载速度很快时,也能按约定时间进行控制,而在下载比较慢时,也能按实际情况,以慢于约定的时间去下载,而且可以保证在前面的页面下载完成后才会继续调度页面,而不会出现更新慢的网站也总是按约定时间调度,结果页面越积攒越多的情况。
在下载页面之前还包括:循环分配站点下载配额的步骤,如图2所示,具体包括:
步骤S210,获取当前服务器上的站点总数,根据站点序号,直接定位站点结构。
步骤S220,从站点结构中获取该站点的域名总数和首尾域名序号,对站点域名按上次调度时间进行排序,从排序后的域名中选择预定数量的域名。
步骤S230,对选定的域名根据其域名IP总数和域名IP首尾序号定位其域名IP地址,通过域名IP中的IP偏移定位IP结构地址,依次选取并记录各IP的上次调度时间,选择上次调度时间最早的IP对应的服务器。
步骤S240,定位IP结构后,比较IP结构里的上次调度时间与当前时间。如果上次调度时间大于或等于当前时间(上次调度时间属性中记录的时间值,由上述步骤S120中对该属性值调整得到),不为该服务器分配所述一次可调度页面数,如果上次调度时间小于当前时间,为该服务器分配所述一次可调度页面数,同时将该IP对应的服务器的上次调度时间置为当前时间。
步骤S250,如果该域名中IP结构分配完成,循环处理下一个域名,否则在剩下的IP中选择上次调度时间最早的一个IP继续处理。步骤S250,当前站点中所有域名分配完成后,将站点序号加1,以便处理下一个站点,如果站点数达到最大值,序号重置为0,如果在所有站点都检查过一次后没有可分配站点,休眠预定时间(如1秒)后再对所有站点循环分配。所有站点连续排列,第一个站点序号为0,以后逐次加1,调度时先从0号站点开始,下次加1调度1号站点。调度到最后一个站点后,下次就要折回去再从0号站点调度。
本发明还提供了一种基于站点配额的均衡调度系统,具体结构如图3所示,包括:调度任务获取模块310和调度模块320。
调度任务获取模块310适于获取站点的域名队列中的调度任务,若域名队列中的调度任务有优先级顺序,则按预定的任务优先级获取站点的域名队列中的调度任务。调度模块320适于对所述调度任务所指定的服务器按照预配置的一次可调度页面数从所述服务器中下载相应数量的页面。
本实施例的系统还包括:反馈调整模块,适于在调度一个页面后将所述服务器的上次调度时间更新为所述上次调度时间加上页面超时时间。
本实施例的系统还包括:反馈调整模块,适于在下载一个页面后将所述服务器的上次调度时间更新为所述上次调度时间减去回调时间,所述回调时间为页面超时时间与所述页面下载时间之差。其中,当页面实际下载时间小于预设的下载耗时,则所述页面下载时间为所述预设的下载耗时,否则为页面实际下载时间。
本实施例的系统还包括:配额分配模块4,具体如图4所示,包括:
站点结构定位模块410,适于获取当前服务器上的站点总数,根据站点序号,直接定位站点结构;
域名配额分配模块420,适于从站点结构中获取该站点的域名总数和首尾域名序号,对站点域名按上次调度时间进行排序,从选择排序后的域名中选择预定数量的域名;
域名IP定位模块430,适于对选定的域名根据其域名IP总数和域名IP首尾序号定位其域名IP地址,通过域名IP中的IP偏移定位IP结构地址,依次选取并记录IP的上次调度时间,选择上次调度时间最早的IP对应的服务器;
调度时间设置模块440,适于定位IP结构后,比较IP结构里的上次调度时间与当前时间。如果上次调度时间大于或等当前时间,不为该服务器分配所述一次可调度页面数,如果上次调度时间小于当前时间,为该服务器分配所述一次可调度页面数,同时将该IP的上次调度时间置为当前时间;
循环分配模块450,适于如果该域名中IP结构分配完成,循环处理下一个域名,否则在剩下的IP中选择上次调度时间最早的一个IP继续处理,当前站点中所有域名分配完成后,将站点序号加1,以便处理下一个站点,如果站点数达到最大值,序号重置为0,如果在所有站点都检查过一次后没有可分配站点,休眠预定时间(如1秒)后再对所有站点循环分配。
在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的基于站点配额的均衡调度系统中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims (12)

1.一种基于站点配额的均衡调度系统,包括:
调度任务获取模块,适于获取站点的域名队列中的调度任务;
调度模块,适于对所述调度任务所指定的服务器按照预配置的一次可调度页面数从所述服务器中下载相应数量的页面;
其中,所述调度任务获取模块适于按预定的任务优先级获取站点的域名队列中的调度任务。
2.如权利要求1所述的基于站点配额的均衡调度系统,其特征在于,所述系统还包括:反馈调整模块,适于在调度一个页面后将所述页面的上次调度时间更新为所述上次调度时间加上页面超时时间。
3.如权利要求1~2中任一项所述的基于站点配额的均衡调度系统,其特征在于,所述系统还包括:反馈调整模块,适于在下载一个页面后将所述页面的上次调度时间更新为所述上次调度时间减去回调时间,所述回调时间为页面超时时间与所述页面下载时间之差。
4.如权利要求1~3中任一项所述的基于站点配额的均衡调度系统,其特征在于,当页面实际下载时间小于预设的下载耗时,则所述页面下载时间为所述预设的下载耗时,否则为页面实际下载时间。
5.如权利要求1~4中任一项所述的基于站点配额的均衡调度系统,其特征在于,所述系统还包括:配额分配模块,具体包括:
站点结构定位模块,适于获取当前服务器上的站点总数,根据站点序号,直接定位站点结构;
域名配额分配模块,适于从站点结构中获取该站点的域名总数和首尾域名序号,对站点域名按上次调度时间进行排序,从选择排序后的域名中选择预定数量的域名;
域名IP定位模块,适于对选定的域名根据其域名IP总数和域名IP首尾序号定位其域名IP地址,通过域名IP中的IP偏移定位IP结构地址,依次选取并记录IP的上次调度时间,选择上次调度时间最早的IP对应的服务器;
调度时间设置模块,适于定位IP结构后,比较IP结构里的上次调度时间与当前时间,如果上次调度时间大于或等当前时间,不为该服务器分配所述一次可调度页面数,如果上次调度时间小于当前时间,为该服务器分配所述一次可调度页面数,同时将该IP的上次调度时间置为当前时间;
循环分配模块,适于如果该域名中IP结构分配完成,循环处理下一个域名,否则在剩下的IP中选择上次调度时间最早的一个IP继续处理,当前站点中所有域名分配完成后,将站点序号加1,以便处理下一个站点,如果站点数达到最大值,序号重置为0,如果在所有站点都检查过一次后没有可分配站点,休眠预定时间后再对所有站点循环分配。
6.如权利要求1~5中任一项所述的基于站点配额的均衡调度系统,其特征在于,预定时间为1秒。
7.一种基于站点配额的均衡调度方法,包括以下步骤:
获取站点的域名队列中的调度任务;
对所述调度任务所指定的服务器按照预配置的一次可调度页面数从所述服务器中下载相应数量的页面;
其中,按预定的任务优先级获取站点的域名队列中的调度任务。
8.如权利要求7所述的基于站点配额的均衡调度方法,其特征在于,调度一个页面后还包括步骤:将所述页面的上次调度时间更新为所述上次调度时间加上页面超时时间。
9.如权利要求7~8中任一项所述的基于站点配额的均衡调度方法,其特征在于,下载一个页面后还包括步骤:将所述页面的上次调度时间更新为所述上次调度时间减去回调时间,所述回调时间为页面超时时间与所述页面下载时间之差。
10.如权利要求7~9中任一项所述的基于站点配额的均衡调度方法,其特征在于,当页面实际下载时间小于预设的下载耗时,则所述页面下载时间为所述预设的下载耗时,否则为页面实际下载时间。
11.如权利要求7~10中任一项所述的基于站点配额的均衡调度方法,其特征在于,在下载页面之前还包括:
获取当前服务器上的站点总数,根据站点序号,直接定位站点结构;
从站点结构中获取该站点的域名总数和首尾域名序号,对站点域名按上次调度时间进行排序,从排序后的域名中选择预定数量的域名;
对选定的域名根据其域名IP总数和域名IP首尾序号定位其域名IP地址,通过域名IP中的IP偏移定位IP结构地址,依次选取并记录各IP的上次调度时间,选择上次调度时间最早的IP对应的服务器;
定位IP结构后,比较IP结构里的上次调度时间与当前时间,如果上次调度时间大于或等于当前时间,不为该服务器分配所述一次可调度页面数,如果上次调度时间小于当前时间,为该服务器分配所述一次可调度页面数,同时将该IP的上次调度时间置为当前时间;
如果该域名中IP结构分配完成,循环处理下一个域名,否则在剩下的IP中选择上次调度时间最早的一个IP继续处理,当前站点中所有域名分配完成后,将站点序号加1,以便处理下一个站点,如果站点数达到最大值,序号重置为0,如果在所有站点都检查过一次后没有可分配站点,休眠预定时间后再对所有站点循环分配。
12.如权利要求8~11中任一项所述的基于站点配额的均衡调度方法,其特征在于,预定时间为1秒。
CN201210376393.7A 2012-09-29 2012-09-29 基于站点配额的均衡调度系统及方法 Expired - Fee Related CN102868639B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210376393.7A CN102868639B (zh) 2012-09-29 2012-09-29 基于站点配额的均衡调度系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210376393.7A CN102868639B (zh) 2012-09-29 2012-09-29 基于站点配额的均衡调度系统及方法

Publications (2)

Publication Number Publication Date
CN102868639A true CN102868639A (zh) 2013-01-09
CN102868639B CN102868639B (zh) 2016-08-03

Family

ID=47447239

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210376393.7A Expired - Fee Related CN102868639B (zh) 2012-09-29 2012-09-29 基于站点配额的均衡调度系统及方法

Country Status (1)

Country Link
CN (1) CN102868639B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103559083A (zh) * 2013-10-11 2014-02-05 北京奇虎科技有限公司 网页爬取任务调度方法与任务调度器
CN104853004A (zh) * 2015-05-26 2015-08-19 湖南傻蛋科技有限公司 一种域名的分布式智能解析方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101453361A (zh) * 2007-12-07 2009-06-10 中国科学院声学研究所 一种网站请求队列管理方法
CN101635718A (zh) * 2009-08-26 2010-01-27 中兴通讯股份有限公司 网络爬虫系统及其获取资源的方法和网络资源抓取装置
CN102301677A (zh) * 2008-11-25 2011-12-28 思杰系统有限公司 用于全局服务器负载平衡站点持续的系统和方法
CN102929721A (zh) * 2012-09-29 2013-02-13 北京奇虎科技有限公司 基于站点配额的均衡调度系统及方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101453361A (zh) * 2007-12-07 2009-06-10 中国科学院声学研究所 一种网站请求队列管理方法
CN102301677A (zh) * 2008-11-25 2011-12-28 思杰系统有限公司 用于全局服务器负载平衡站点持续的系统和方法
CN101635718A (zh) * 2009-08-26 2010-01-27 中兴通讯股份有限公司 网络爬虫系统及其获取资源的方法和网络资源抓取装置
CN102929721A (zh) * 2012-09-29 2013-02-13 北京奇虎科技有限公司 基于站点配额的均衡调度系统及方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103559083A (zh) * 2013-10-11 2014-02-05 北京奇虎科技有限公司 网页爬取任务调度方法与任务调度器
CN103559083B (zh) * 2013-10-11 2017-05-10 北京奇虎科技有限公司 网页爬取任务调度方法与任务调度器
CN104853004A (zh) * 2015-05-26 2015-08-19 湖南傻蛋科技有限公司 一种域名的分布式智能解析方法
CN104853004B (zh) * 2015-05-26 2019-08-13 湖南安数网络有限公司 一种域名的分布式智能解析方法

Also Published As

Publication number Publication date
CN102868639B (zh) 2016-08-03

Similar Documents

Publication Publication Date Title
US10949253B2 (en) Data forwarder for distributed data acquisition, indexing and search system
CN111027921B (zh) 一种业务处理方法、装置及电子设备和存储介质
CN102843445B (zh) 一种浏览器及其进行域名解析的方法
US8352966B2 (en) System and method of inter-widget communication
CN102929672B (zh) 应用升级系统及方法
US8830913B1 (en) Location-based software updates
M’hallah An iterated local search variable neighborhood descent hybrid heuristic for the total earliness tardiness permutation flow shop
CN103605764A (zh) 一种网络爬虫系统及网络爬虫多任务执行和调度方法
CN103559083A (zh) 网页爬取任务调度方法与任务调度器
CN102929671B (zh) 服务器、应用升级方法及应用升级系统
CN104065565A (zh) 推送消息的方法、服务器、客户端装置和系统
CN101355590B (zh) 下载提示方法、系统及装置
CN102902785A (zh) 一种网页信息获取系统及方法
CN108833584B (zh) 消息推送方法、终端、服务器及计算机存储介质
CN105095423A (zh) 计数数据写入方法和装置
CN102929721B (zh) 基于站点配额的均衡调度系统及方法
CN104216698A (zh) 一种注册网页方法及相关装置
CN109885642A (zh) 面向全文检索的分级存储方法及装置
US20160188717A1 (en) Network crawling prioritization
CN102760073A (zh) 一种任务调度方法、系统及装置
CN102868639A (zh) 基于站点配额的均衡调度系统及方法
CN103326957A (zh) 一种浏览器及其中进行流量控制的方法
CN103761128A (zh) 一种指令执行方法、装置及系统
CN104639462A (zh) 基于站点配额的均衡调度系统及方法
CN104717286A (zh) 数据处理方法、终端、服务器和系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20160803

Termination date: 20210929