CN110262888A - 任务调度方法和装置及计算节点执行任务的方法和装置 - Google Patents

任务调度方法和装置及计算节点执行任务的方法和装置 Download PDF

Info

Publication number
CN110262888A
CN110262888A CN201910565503.6A CN201910565503A CN110262888A CN 110262888 A CN110262888 A CN 110262888A CN 201910565503 A CN201910565503 A CN 201910565503A CN 110262888 A CN110262888 A CN 110262888A
Authority
CN
China
Prior art keywords
task
request data
request
index value
pending task
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910565503.6A
Other languages
English (en)
Other versions
CN110262888B (zh
Inventor
张琪琦
高光海
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jingdong Technology Holding Co Ltd
Original Assignee
JD Digital Technology Holdings Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by JD Digital Technology Holdings Co Ltd filed Critical JD Digital Technology Holdings Co Ltd
Priority to CN201910565503.6A priority Critical patent/CN110262888B/zh
Publication of CN110262888A publication Critical patent/CN110262888A/zh
Application granted granted Critical
Publication of CN110262888B publication Critical patent/CN110262888B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/48Program initiating; Program switching, e.g. by interrupt
    • G06F9/4806Task transfer initiation or dispatching
    • G06F9/4843Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
    • G06F9/4881Scheduling strategies for dispatcher, e.g. round robin, multi-level priority queues
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Economics (AREA)
  • General Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Marketing (AREA)
  • Development Economics (AREA)
  • Data Mining & Analysis (AREA)
  • Storage Device Security (AREA)

Abstract

本公开提供了一种任务调度方法,该任务调度方法包括:获取至少一个待执行任务的任务信息,该任务信息包括针对页面的至少一个请求数据;获取为所述至少一个待执行任务分配的状态信息,所述状态信息用于表征待执行任务是否执行完成;以及根据预定规则,将至少一个待执行任务的任务信息和状态信息存入预定空间。本公开还提供了一种任务调度装置,以及一种计算节点执行任务的方法和装置。

Description

任务调度方法和装置及计算节点执行任务的方法和装置
技术领域
本公开涉及互联网技术领域,更具体地,涉及一种任务调度方法和装置,以及一种计算节点执行任务的方法和装置。
背景技术
随着网络的迅速发展,互联网成为大量信息的载体,如何有效地提取并利用这些信息成为一个巨大的挑战。为了解决上述问题,定向爬取相关网页资源的网络爬虫技术应用而生。
在实现本公开构思的过程中,发明人发现现有技术中至少存在如下问题:网络爬虫在爬取页面的过程中,常常会进行多级页面爬取。例如从一个网站的统一资源定位符(URL)入口开始,爬取到列表页面,会有大量需要爬取的页面产生。比如一个品种的商品列表页会产生大量商品详情页面,这种情况下单线程爬取效率会很低,多线程爬取则需要一个合理的设计方案。目前常用的多线程爬取技术为:人工拆分出多个入口,每个入口启动一个线程爬取。这样的方式会导致不同的爬虫任务需要定制设置不同的线程数量,一个线程完成自己的爬虫任务后就会停止,因此无法最大限度利用机器资源。再者,在层级很深的情况下,只用不同的入口来设置线程数满足不了提高爬取效率的需求。
发明内容
有鉴于此,本公开提供了一种能够有效提高爬取效率的任务调度方法和装置,以及一种计算节点执行任务的方法和装置。
本公开的一个方面提供了一种任务调度方法,包括:获取至少一个待执行任务的任务信息,该任务信息包括针对页面的至少一个请求数据;获取为所述至少一个待执行任务分配的状态信息,该状态信息用于表征待执行任务是否执行完成;以及根据预定规则,将至少一个待执行任务的任务信息和状态信息存入预定空间。
根据本公开的实施例,上述状态信息包括表征待执行任务是否执行完成的待消费量,为至少一个待执行任务中每个待执行任务分配的状态信息包括的待消费量的值设定为预定值,该预定值为正整数。
根据本公开的实施例,上述根据预定规则,将至少一个待执行任务的任务信息存入预定空间包括:根据加密规则,将第一待执行任务的第一任务信息包括的至少一个第一请求数据加密,生成至少一个第一索引值,该至少一个第一索引值构成与第一任务信息对应的第一索引值队列;将第一索引值队列存入预定空间的第一子空间;以及将至少一个第一请求数据存入预设空间的第二子空间,形成与至少一个第一索引值一一对应的至少一个第一请求数据集合。其中,每个第一请求数据集合包括一个或多个第一请求数据,至少一个第一请求数据集合的并集包括至少一个第一请求数据,且不同的第一请求数据集合的交集为空。其中,第一待执行任务是至少一个待执行任务中的任意一个待执行任务。
根据本公开的实施例,上述任务信息还包括任务标识信息。上述根据预定规则,将至少一个待执行任务的任务信息存入预定空间还包括:将至少一个待执行任务中每个待执行任务的任务信息包括的任务标识信息存入预设空间的第三子空间;上述任务调度方法还包括:响应于停止执行第二待执行任务的操作,删除第三子空间中存储的第二待执行任务的第二任务信息包括的任务标识信息。并且/或者,上述任务调度方法还包括:响应于恢复执行第二待执行任务的操作,将第二待执行任务的第二任务信息包括的任务标识信息重新存入所述第三子空间。其中,第二待执行任务是至少一个待执行任务中的任意一个待执行任务。
根据本公开的实施例,上述任务调度方法还包括:监听计算节点的实时状态;在计算节点的实时状态表征计算节点宕机的情况下,获取预定空间的第四子空间中存储的与计算节点对应的第二请求数据;根据加密规则,对第二请求数据加密,生成与第二请求数据对应的第二索引值;将第二索引值存入与第二请求数据所属的任务信息对应的索引值队列中;以及将第二请求数据存入第二子空间,形成与第二索引值对应的第二请求数据集合。其中,第四子空间是在计算节点从第二子空间获取到第二请求数据的情况下,存入第二请求数据的。
根据本公开的实施例,上述任务调度方法还包括:响应于计算节点删除预定空间内第三待执行任务的任务信息的操作,删除预定空间中存储的第三待执行任务的状态信息;并且/或者,响应于中止执行第四待执行任务的操作,删除预定空间内第四待执行任务的任务信息和状态信息。其中,第三待执行任务与第四待执行任务均为至少一个待执行任务中的任意一个待执行任务,第三待执行任务与所述第四待执行任务相同或不同。
本公开的另一方面提供了一种计算节点执行任务的方法,该方法包括:与其他计算节点并行循环的执行以下操作:从预定空间中获取至少一个待执行任务的任务信息和状态信息,该任务信息包括针对页面的至少一个请求数据,状态信息能够表征待执行任务是否执行完成的待消费量;根据获取的至少一个待执行任务中第一待执行任务的第一状态信息,确定是否爬取至少一个第一请求数据针对的页面的数据,该至少一个第一请求数据属于第一待执行任务的第一任务信息;在确定爬取至少一个第一请求数据针对的页面的数据的情况下,获取至少一个第一请求数据中的一个或多个第一请求数据;以及爬取一个或多个第一请求数据针对的页面的数据。
根据本公开的实施例,上述状态信息包括表征待执行任务是否执行完成的待消费量。上述根据获取的至少一个待执行任务中第一待执行任务的第一状态信息,确定是否爬取至少一个第一请求数据针对的页面的数据包括:在第一待执行任务的第一状态信息包括的第一待消费量的值为正整数的情况下,确定爬取至少一个第一请求数据针对的页面的数据。上述计算节点执行任务的方法还包括:在爬取得到的一个或多个第一请求数据针对的页面的数据中,包括m个针对不同的次级页面的第一次级请求数据的情况下,将第一待消费量的值加m后减1,m个第一次级请求数据与一个或多个第一请求数据对应;或者,在爬取得到的一个或多个第一请求数据针对的页面的数据中不包括针对次级页面的第一次级请求数据的情况下,将第一待消费量的值减1。其中,第一待消费量的初始值为预定值,该预定值为正整数,m为正整数。
根据本公开的实施例,上述预定空间包括第一子空间和第二子空间。第一子空间存储有与第一任务信息对应的第一索引值队列,该第一索引值队列包括至少一个第一索引值,该至少一个第一索引值是根据加密规则,对第一任务信息包括的至少一个第一请求数据加密得到的。第二子空间存储有与至少一个第一索引值一一对应的至少一个第一请求数据集合,每个第一请求数据集合包括一个或多个第一请求数据,该至少一个第一请求数据集合的并集包括所述至少一个第一请求数据,且不同的第一请求数据集合的交集为空。上述获取至少一个第一请求数据中的一个或多个第一请求数据包括:确定第一子空间中与第一任务信息对应的第一索引值队列;从第一索引值队列中获取一个第一索引值;以及根据所述一个第一索引值,从第二子空间获取一个或多个第一请求数据。
根据本公开的实施例,上述任务信息还包括任务标识信息,上述预定空间还包括第三子空间。该第三子空间存储有至少一个待执行任务中每个待执行任务的任务信息包括的任务标识信息。上述获取至少一个第一请求数据中的一个或多个第一请求数据还包括:从第三子空间中获取第一任务信息包括的第一任务标识信息,所述第一索引值队列根据第一任务标识信息确定。
根据本公开的实施例,上述状态信息还包括总消费次数和消费失败次数,每个请求数据各自具有标签,该标签指示了每个请求数据的获取次数。上述计算节点执行任务的方法还包括:在未爬取得到一个或多个第一请求数据针对的页面的数据的情况下,将总消费次数的值与消费失败次数的值均加1;以及确定一个或多个第一请求数据的标签指示的获取次数是否满足预定条件;在一个或多个第一请求数据的标签指示的获取次数满足预定条件的情况下,根据加密规则,对一个或多个第一请求数据加密,得到第三索引值;将第三索引值放入第一任务信息的第一索引值队列中;将一个或多个第一请求数据存入第二子空间,形成与第三索引值对应的第三请求数据集合,以使计算节点或其他计算节点重新获取;以及将一个或多个第一请求数据的标签指示的获取次数的值加1。在一个或多个第一请求数据的标签指示的获取次数不满足预定条件的情况下,将第一待消费量的值减1;并且/或者,在爬取得到一个或多个第一请求数据针对的页面的数据的情况下,将总消费次数的值加1。其中,获取次数的值、总消费次数的值和消费失败次数的值均为初始值为0的自然数。
根据本公开的实施例,上述计算节点执行任务的方法还包括:在爬取得到一个或多个第一请求数据针对的页面的数据中包括第一次级请求数据的情况下:根据所述加密规则,对第一次级请求数据加密,得到与第一次级请求数据对应的第一次级索引值;以及将第一次级索引值存入第一子空间中所述第一索引值的次级索引值队列中,并将第一次级请求数据存入第二子空间中,形成与第一次级索引值对应的第一次级请求数据集合。上述根据一个第一索引值,从第二子空间获取一个或多个第一请求数据包括:确定第一索引值的次级索引值队列中是否存在第一次级索引值:在存在第一次级索引值的情况下,获取一个第一次级索引值,从第二子空间获取与一个第一次级索引值对应的第一次级请求数据集合中的一个或多个次级请求数据;在不存在第一次级索引值的情况下,从第二子空间获取与一个第一索引值对应的第一请求数据集合中的一个或多个请求数据。
根据本公开的实施例,上述预定空间还包括第四子空间,上述计算节点执行任务的方法还包括:在获取到一个或多个第一请求数据的情况下,删除第二子空间中存储的一个或多个第一请求数据,并将一个或多个第一请求数据存入所述第四子空间;并且/或者,在爬取得到一个或多个第一请求数据针对的页面的数据之后,删除第四子空间中存储的一个或多个第一请求数据。
根据本公开的实施例,上述任务信息还包括优先级信息,上述根据所述一个第一索引值,从第二子空间获取一个或多个第一请求数据包括:根据第一待执行任务的第一任务信息包括的优先级信息,确定获取的第一请求数据的个数为n,n为自然数;以及在所述一个第一索引值对应的第一请求数据集合包括的一个或多个第一请求数据的个数大于等于n的情况下,获取对应的第一请求集合包括的一个或多个第一请求数据中的n个第一请求数据;在所述一个第一索引值对应的第一请求数据集合包括的一个或多个第一请求数据的个数小于n的情况下,获取对应的第一请求集合包括的一个或多个第一请求数据。
本公开的另一方面提供了一种任务调度装置,该装置包括第一信息获取模块、状态信息获取模块和信息存储模块。第一信息获取模块用于获取至少一个待执行任务的任务信息,该任务信息包括针对页面的至少一个请求数据。状态信息获取模块用于获取为至少一个待执行任务分配的状态信息,该状态信息用于表征待执行任务是否执行完成。信息存储模块用于根据预定规则,将至少一个待执行任务的任务信息和状态信息存入预定空间。
根据本公开的实施例,上述状态信息包括表征待执行任务是否执行完成的待消费量,为至少一个待执行任务中每个待执行任务分配的状态信息包括的待消费量的值为预定值,该预定值为正整数。
根据本公开的实施例,上述信息存储模块包括第一加密子模块、第一索引值存储子模块和第一请求数据存储子模块。第一加密子模块用于根据加密规则,将第一待执行任务的第一任务信息包括的至少一个第一请求数据加密,生成至少一个第一索引值,该至少一个第一索引值构成与第一任务信息对应的第一索引值队列。第一索引值存储子模块用于将第一索引值队列存入预定空间的第一子空间。第一请求数据存储子模块用于将至少一个第一请求数据存入预设空间的第二子空间,形成与至少一个第一索引值一一对应的至少一个第一请求数据集合。其中,每个第一请求数据集合包括一个或多个第一请求数据,至少一个第一请求数据集合的并集包括至少一个第一请求数据,且不同的第一请求数据集合的交集为空。第一待执行任务是至少一个待执行任务中的任意一个待执行任务。
根据本公开的实施例,上述任务信息还包括任务标识信息。上述信息存储模块还包括标识信息存储子模块,用于将至少一个待执行任务中每个待执行任务的任务信息包括的任务标识信息存入预设空间的第三子空间。上述任务调度装置还包括标识信息删除模块,该标识信息删除模块用于响应于停止执行第二待执行任务的操作,删除第三子空间中存储的第二待执行任务的第二任务信息包括的任务标识信息。并且/或者,上述标识信息存储子模块还用于响应于恢复执行第二待执行任务的操作,将第二待执行任务的第二任务信息包括的任务标识信息重新存入第三子空间。其中,第二待执行任务是至少一个待执行任务中的任意一个待执行任务。
根据本公开的实施例,上述任务调度装置还包括状态监听模块和第一请求数据获取模块。状态监听模块用于监听计算节点的实时状态。第一请求数据获取模块用于在计算节点的实时状态表征计算节点宕机的情况下,获取预定空间的第四子空间中存储的与计算节点对应的第二请求数据。该第四子空间是在计算节点从第二子空间获取到第二请求数据的情况下,存入第二请求数据的。相应地,上述第一加密子模块还用于根据加密规则,对该第二请求数据加密,生成与第二请求数据对应的第二索引值。第一索引值存储子模块还用于将第二索引值存入与第二请求数据所属的任务信息对应的索引值队列中。第一请求数据存储子模块还用于将第二请求数据存入第二子空间,形成与第二索引值对应的第二请求数据集合。
根据本公开的实施例,上述任务调度装置还包括状态信息删除模块和任务信息删除模块。其中,状态信息删除模块用于响应于计算节点删除预定空间内第三待执行任务的任务信息的操作,删除预定空间中存储的第三待执行任务的状态信息。任务信息删除模块用于响应于中止执行第四待执行任务的操作,删除预定空间内第四待执行任务的任务信息,相应地,状态信息删除模块还用于响应于中止第四待执行任务的操作,删除预定空间内第四待执行任务的状态信息。其中,第三待执行任务与第四待执行任务均为至少一个待执行任务中的任意一个待执行任务,第三待执行任务与第四待执行任务相同或不同。
本公开的另一方面提供了一种用于执行任务的装置,该装置设置于计算节点中,用于使计算节点与其他计算节点并行循环的执行爬虫任务。该用于执行任务的装置包括第二信息获取模块、爬取确定模块、第二请求数据获取模块和爬取执行模块。第二信息获取模块用于从预定空间中获取至少一个待执行任务的任务信息和状态信息,每个任务信息包括针对页面的至少一个请求数据,状态信息能够表征待执行任务是否执行完成。爬取确定模块用于根据获取的至少一个待执行任务中第一待执行任务的第一状态信息,确定是否爬取至少一个第一请求数据针对的页面的数据,该至少一个第一请求数据属于第一待执行任务的第一任务信息。第二请求数据获取模块用于在确定爬取至少一个第一请求数据针对的页面的数据的情况下,获取至少一个第一请求数据中的一个或多个第一请求数据。爬取执行模块用于爬取一个或多个第一请求数据针对的页面的数据。
根据本公开的实施例,上述状态信息包括表征待执行任务是否执行完成的待消费量。上述爬取确定模块具体用于:在第一待执行任务的第一状态信息包括的第一待消费量的值为正整数的情况下,确定爬取至少一个第一请求数据针对的页面的数据。其中,第一待消费量的初始值为预定值,所述预定值为正整数。上述用于执行任务的装置还包括状态信息调整模块。在爬取得到的一个或多个第一请求数据针对的页面的数据中,包括m个针对不同的次级页面的第一次级请求数据的情况下,状态信息调整模块用于将所述第一待消费量的值加m后减1。其中,m个第一次级请求数据与一个或多个第一请求数据对应,m为正整数。或者,在爬取得到的一个或多个第一请求数据针对的页面的数据中不包括针对次级页面的第一次级请求数据的情况下,上述状态信息调整模块用于将第一待消费量的值减1。
根据本公开的实施例,上述预定空间包括第一子空间和第二子空间。第一子空间存储有与第一任务信息对应的第一索引值队列,该第一索引值队列包括至少一个第一索引值,该至少一个第一索引值是根据加密规则,对第一任务信息包括的至少一个第一请求数据加密得到的。第二子空间存储有与至少一个第一索引值一一对应的至少一个第一请求数据集合,每个第一请求数据集合包括一个或多个第一请求数据,该至少一个第一请求数据集合的并集包括至少一个第一请求数据,且不同的第一请求数据集合的交集为空。相应地,上述第二请求数据获取模块可以包括索引值队列确定子模块、索引值获取子模块和请求数据获取子模块。索引值队列确定子模块用于确定第一子空间中与第一任务信息对应的第一索引值队列。索引值获取子模块用于从第一索引值队列中获取一个第一索引值。请求数据获取子模块用于根据该一个第一索引值,从第二子空间获取一个或多个第一请求数据。
根据本公开的实施例,上述任务信息还包括任务标识信息,上述预定空间还包括第三子空间。该第三子空间存储有至少一个待执行任务中每个待执行任务的任务信息包括的任务标识信息。相应地,上述第二请求数据获取模块还包括任务标识信息获取子模块,用于从第三子空间中获取第一任务信息包括的第一任务标识信息。则索引值队列确定子模块根据任务标识信息获取子模块获取的第一任务标识信息来确定第一索引值队列。
根据本公开的实施例,上述状态信息还包括总消费次数和消费失败次数。每个请求数据各自具有标签,该标签指示了每个请求数据的获取次数。上述用于执行任务的装置还包括获取次数确定模块和获取次数调整模块。第二信息存储模块还包括第二加密子模块和第二索引值存储子模块。在爬取执行模块未爬取得到一个或多个第一请求数据针对的页面的数据的情况下,上述状态信息调整模块还用于将总消费次数的值与消费失败次数的值均加1。获取次数确定模块用于确定一个或多个第一请求数据的标签指示的获取次数是否满足预定条件。在获取次数确定模块确定一个或多个第一请求数据的标签指示的获取次数满足预定条件的情况下,第二加密子模块用于根据加密规则,对一个或多个第一请求数据加密,得到第三索引值;第二索引值存储子模块用于将第三索引值放入第一任务信息的第一索引值队列中;第二请求数据存储子模块还用于将一个或多个第一请求数据存入第二子空间,形成与第三索引值对应的第三请求数据集合,以使计算节点或其他计算节点重新获取;上述获取次数调整模块用于将一个或多个第一请求数据的标签指示的获取次数的值加1。在获取次数确定模块确定一个或多个第一请求数据的标签指示的获取次数不满足预定条件的情况下,上述状态信息调整模块还用于将第一待消费量的值减1。并且/或者,在爬取执行模块爬取得到一个或多个第一请求数据针对的页面的数据的情况下,上述状态信息调整模块还用于将总消费次数的值加1。其中,获取次数的值、总消费次数的值和消费失败次数的值均为初始值为0的自然数。
根据本公开的实施例,在爬取执行模块爬取得到一个或多个第一请求数据针对的页面的数据中包括第一次级请求数据的情况下,上述第二加密子模块还用于根据加密规则,对第一次级请求数据加密,得到与第一次级请求数据对应的第一次级索引值。第二索引值存储子模块还用于将第一次级索引值存入第一子空间中第一索引值的次级索引值队列中。第二请求数据存储子模块还用于将第一次级请求数据存入第二子空间中,形成与第一次级索引值对应的第一次级请求数据集合。请求数据获取子模块可以包括第一确定单元和第一获取单元。其中,第一确定单元用于确定第一索引值的次级索引值队列中是否存在第一次级索引值。在确定存在第一次级索引值的情况下,第一获取单元用于获取一个第一次级索引值,并从第二子空间获取与该一个第一次级索引值对应的第一次级请求数据集合中的一个或多个次级请求数据。在确定不存在第一次级索引值的情况下,第一获取单元用于从所述第二子空间获取与上述一个第一索引值对应的第一请求数据集合中的一个或多个请求数据。
根据本公开的实施例,上述预定空间还包括第四子空间,上述用于执行任务的装置还包括第二信息存储模块和/或请求数据删除模块,第二信息存储模块包括第二请求数据存储子模块。在请求数据获取子模块获取到一个或多个第一请求数据的情况下,第二信息存储模块的第二请求数据存储子模块用于将一个或多个第一请求数据存入第四子空间,请求数据删除模块则用于删除第二子空间中存储的所述一个或多个第一请求数据。或者,在上述爬取执行模块爬取得到一个或多个第一请求数据针对的页面的数据之后,上述请求数据删除模块还用于删除第四子空间中存储的一个或多个第一请求数据。
根据本公开的实施例,上述任务信息还包括优先级信息,上述请求数据获取子模块可以包括第二确定单元和第二获取单元。第二确定单元用于根据第一待执行任务的第一任务信息包括的优先级信息,确定获取的第一请求数据的个数为n,n为自然数。第二获取单元用于在所述一个第一索引值对应的第一请求数据集合包括的一个或多个第一请求数据的个数大于等于n的情况下,获取对应的第一请求集合包括的一个或多个第一请求数据中的n个第一请求数据;或者,在所述一个第一索引值对应的第一请求数据集合包括的一个或多个第一请求数据的个数小于n的情况下,获取对应的第一请求集合包括的一个或多个第一请求数据。
本公开的另一方面提供了一种计算机可读存储介质,存储有计算机可执行指令,所述指令在被执行时用于实现如上所述的任务调度方法或计算节点执行任务的方法。
本公开的另一方面提供了一种计算机程序,所述计算机程序包括计算机可执行指令,所述指令在被执行时用于实现如上所述的任务调度方法或计算节点执行任务的方法。
根据本公开的实施例,可以至少部分地解决现有技术中没有合理的多线程爬取方案而导致的爬取效率低的问题,并因此可以通过缓存的设计方案来使得爬虫能多线程的爬取多级页面,因此在一定程度上提高爬取效率。
附图说明
通过以下参照附图对本公开实施例的描述,本公开的上述以及其他目的、特征和优点将更为清楚,在附图中:
图1示意性示出了根据本公开实施例的任务调度方法和装置,及计算节点执行任务的方法和装置的系统架构;
图2示意性示出了根据本公开第一实施例的任务调度方法的流程图;
图3示意性示出了根据本公开第一实施例的将任务信息存入预定空间的流程图;
图4A示意性示出了根据本公开第二实施例的任务调度方法的流程图;
图4B示意性示出了根据本公开第三实施例的任务调度方法的流程图;
图4C示意性示出了根据本公开第四实施例的任务调度方法的流程图;
图5示意性示出了根据本公开第五实施例的任务调度方法的流程图;
图6示意性示出了根据本公开第一实施例的计算节点执行任务的方法流程图;
图7示意性示出了根据本公开第一实施例的获取第一请求数据的流程图;
图8示意性示出了根据本公开第一实施例在爬取成功的情况下计算节点执行任务的方法流程图;
图9示意性示出了根据本公开实施例在爬取得到的数据中包括第一次级请求数据的情况下计算节点执行任务的方法流程图;
图10示意性示出了根据本公开实施例在爬取失败的情况下计算节点执行任务的方法流程图;
图11A示意性示出了根据本公开第二实施例的获取第一请求数据的流程图;
图11B示意性示出了根据本公开第三实施例的获取第一请求数据的流程图;
图12示意性示出了根据本公开第二实施例的计算节点执行任务的方法流程图;
图13示意性示出了根据本公开第三实施例的获取第一请求数据的流程图;
图14示意性示出了根据本公开实施例的爬取数据的时序图;
图15示意性示出了根据本公开实施例的任务调度装置的结构框图;
图16示意性示出了根据本公开实施例的用于执行任务的装置的结构框图;
图17示意性示出了根据本公开实施例的适于实现任务调度方法或计算节点执行任务的方法的电子设备的结构框图。
具体实施方式
以下,将参照附图来描述本公开的实施例。但是应该理解,这些描述只是示例性的,而并非要限制本公开的范围。在下面的详细描述中,为便于解释,阐述了许多具体的细节以提供对本公开实施例的全面理解。然而,明显地,一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本公开的概念。
在此使用的术语仅仅是为了描述具体实施例,而并非意在限制本公开。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在,但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。
在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义,除非另外定义。应注意,这里使用的术语应解释为具有与本说明书的上下文相一致的含义,而不应以理想化或过于刻板的方式来解释。
在使用类似于“A、B和C等中至少一个”这样的表述的情况下,一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如,“具有A、B和C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。在使用类似于“A、B或C等中至少一个”这样的表述的情况下,一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如,“具有A、B或C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。
本公开的实施例提供了一种用于提高爬取效率的任务调度方法和装置,及计算节点执行任务的方法和装置。任务调度方法包括:获取至少一个待执行任务的任务信息,该任务信息包括针对页面的至少一个请求数据;设定至少一个待执行任务的状态信息;以及根据预定规则,将至少一个待执行任务的任务信息和状态信息存入预定空间。
图1示意性示出了根据本公开实施例的任务调度方法和装置,及计算节点执行任务的方法和装置的系统架构100。需要注意的是,图1所示仅为可以应用本公开实施例的系统架构的示例,以帮助本领域技术人员理解本公开的技术内容,但并不意味着本公开实施例不可以用于其他设备、系统、环境或场景。
如图1所示,根据该实施例的系统架构100可以包括调度装置110、数据库120和计算节点集群130。
其中,调度装置110可以用于接收用户配置的爬虫任务,并将相应的爬虫任务存入数据库120中,以供计算节点集群130并行且循环地获取爬虫任务,使得计算节点集群130可以根据获取的爬虫任务爬取相应的数据。
该调度装置110例如还可以用于通过心跳机制检测计算节点集群130中的每个计算节点是否正常工作。若检测到某个计算节点宕机,则可以将该计算节点未消费完的爬虫任务重新放入数据库120,供其他计算节点消费。
其中,数据库120例如可以是支持多种数据类型的Redis数据库,该数据库是基于内存且可以持久化的日志型、key-value数据库。该数据库可以支持五种数据类型:string(字符串)、hash(哈希)、list(列表)、set(集合)及zset(有序集合)。可以理解的是,本公开对该数据库120的具体类型不作限定,只要该数据库120能够支持list、set和hash类型数据存储的数据库即可。
其中,计算节点集群130可以包括有多个计算节点,例如可以包括计算节点131、132、133。每个计算节点可以开设有一个或多个线程,则该多个计算节点的多个线程即可并行的从数据库120中获取爬虫任务,以按照设定的规则(例如设定的关键字等),自动地爬取万维网信息的程序或者脚本等数据。
根据本公开的实施例,各个计算节点例如可以是具有处理能力的电子设备,以执行获取的爬虫任务,并对数据库120中存储的爬虫任务的任务信息等进行删除和修改等操作。该电子设备包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。计算节点集群130及调度装置110可以分别通过网络与数据库120进行通讯,以分别实现数据的读取和写入。
根据本公开的实施例,上述的调度装置110例如也可以不具有监听计算节点集群130的功能。相应地,如图1所示,该系统架构100还可以包括有电子设备140,该电子设备140具体例如可以是服务器,其与计算节点集群130通信连接,以通过master-worker机制来监听计算节点集群130中各计算节点的工作状态。该电子设备140例如还可以与数据库120连接,用于在某个计算节点宕机的情况下,将该计算节点未消费完的爬虫任务重新写入数据库120中,供其他计算节点消费。
需要说明的是,本公开实施例所提供的任务调度方法一般可以由调度装置110执行。相应地,本公开实施例所提供的任务调度装置可以为调度装置110,或者可以设置于除计算节点集群130外的任意电子设备(例如电子设备140)中。本公开实施例所提供的计算节点执行任务的方法可以由计算节点集群130中的任意一个计算节点执行。相应地,本公开实施例所提供的用于执行任务的装置可以设置于计算节点集群130中的任意一个计算节点中。
应该理解,图1中的数据库120、计算节点集群130和电子设备140的类型,及计算节点集群130中包括的计算节点个数仅仅是示意性的。根据实现需要,可以具有任意类型的数据库、计算节点和电子设备。
图2示意性示出了根据本公开第一实施例的任务调度方法的流程图。
如图2所示,本公开实施例的任务调度方法包括操作S201~操作S203。该任务调度方法例如可以由图1中的调度装置110执行,或者由电子设备140执行。
在操作S201,获取至少一个待执行任务的任务信息,所述任务信息包括针对页面的至少一个请求数据。
根据本公开的实施例,该待执行任务具体可以是待执行的爬虫任务,该爬虫任务具体可以是用户根据需求设定的。例如爬取百度新闻可以是一个爬虫任务,爬取新浪微博也可以是一个爬虫任务。任务信息包括的请求数据例如可以是针对待爬取网页的网页链接。
根据本公开的实施例,该请求数据具体可以是对从互联网上得到的资源的位置和访问方法的简洁表示的统一资源定位符,即每个请求数据具体可以是一个url信息,该url信息为互联网上标准资源的网页链接地址。互联网上的每个文件都有一个唯一的url,它包含的信息能够表征文件的位置以及浏览器应该如何处理该文件。
在操作S202,获取为至少一个待执行任务分配的状态信息。
根据本公开的实施例,该状态信息例如可以用于表征待执行任务是否执行完成。具体地,该状态信息可以包括表征待执行任务是否执行完成的待消费量。若该待消费量为0,则表明待执行任务已被计算节点执行完成,即其包括的url信息已被消费完,若该消费量大于0,则表明待执行任务包括的url信息还未被全部消费完。
相应地,操作S202中获取的为至少一个待执行任务中每个待执行任务分配的状态信息包括的待消费量的值为预定值,所述预定值为正整数。具体地,该预定值根据爬虫任务对应的顶层url信息(具体为不被任何网页链接包括的顶层网页链接)的个数进行选择,例如,考虑到每个爬虫任务的初始请求数据一般为一个顶层url信息,则该预定值可以为1。
在操作S203,根据预定规则,将至少一个待执行任务的任务信息和状态信息存入预定空间。
根据本公开的实施例,为了避免对同一空间的频繁访问导致的拥堵,上述预定规则具体可以是将任务信息和状态信息放入预定空间的不同子空间中,以使得请求数据的获取和对状态信息的更改互不干扰。所述预定空间可以是图1中数据库120的空间。
综上可知,本公开实施例的任务调度方法通过将任务信息和状态信息存入预定空间,可以使得多个计算节点并行且循环的访问该预定空间,从预定空间中获取任务信息,并根据获取的状态信息来确定是否根据该任务信息执行相应的爬虫任务。即通过本公开实施例的任务调度方法,无需事先为每个计算节点分配爬虫任务,且并不限定每个计算节点执行任务的个数,只要计算节点处于正常工作状态,即可开启多线程获取爬虫任务并消费爬虫任务的url信息。因此,可以通过多开线程、分布式部署来大大提高数据爬取效率。
图3示意性示出了根据本公开第一实施例的将任务信息存入预定空间的流程图。
考虑到在爬取顶层网页链接针对的页面后,一般会爬取到多个次级网页链接,而根据每个次级网页链接又会爬取到多个下一级别的网页链接。依次类推,在执行爬虫任务的过程中,每个爬虫任务可能包括有大量的url信息。而若将所有的url信息都放入到一个空间中,就会导致在url总量很大时存在单个空间过大的问题。为了解决该问题,例如可以为每个爬虫任务包括的当前级的url信息建立索引值,并将根据与该索引值对应的当前级的url信息爬取到的次级url信息放入以该索引值为索引的一个集合中。则单个集合包括的url信息的最大条数为根据当前级url信息产生的所有次级url信息的条数,该条数一般不会太大。因此,如图3所示,图2中的操作S203中将任务信息存入预定空间具体可以通过操作S3031~操作S3033来实现。
在操作S3031,根据加密规则,将第一待执行任务的第一任务信息包括的至少一个第一请求数据加密,生成至少一个第一索引值。其中,至少一个第一索引值构成与第一任务信息对应的第一索引值队列。
根据本公开的实施例,操作S3031具体可以是根据每个待执行任务包括的每个顶层url信息的url地址、header(头标识)和body(信息主体),采用md5加密规则(MessageDigest Algorithm MD5,为计算机安全领域广泛使用的一种散列函数)对每个顶层url信息进行加密,生成唯一表示该每个顶层url信息的索引值。其中,上述的第一待执行任务为操作S201描述的至少一个待执行任务中的任意一个待执行任务。
根据本公开的实施例,在第一任务信息包括多个第一请求数据(顶层url信息)的情况下,则可以通过加密规则得到多个第一索引值,该多个第一索引值即可组成与第一任务信息唯一对应的一个第一索引值队列。
然后在操作S3032,将第一索引值队列存入预定空间的第一子空间;在操作S3033,将至少一个第一请求数据存入预设空间的第二子空间,形成与至少一个第一索引值一一对应的至少一个第一请求数据集合。
其中,每个第一请求数据集合包括一个或多个第一请求数据,即可以包括顶层url信息,也可以包括计算节点根据顶层url信息获取到的次级请求数据,即次级url信息。该至少一个第一请求数据集合的并集包括第一任务信息包括的至少一个第一请求数据中的所有请求数据,且不同的第一请求数据集合的交集为空。其中,将存入第二子空间中的url信息设置为集合(set)结构,是考虑到可能出现存在重复的url信息的情况,则可以依赖该集合结构的设置去重,以避免在计算节点获取url信息进行爬取时,对重复url信息针对的页面的数据进行重复爬取。
根据本公开的实施例,在计算节点根据顶层url信息获取到多个次级url信息时,则可以考虑由计算节点对该多个次级url信息加密,得到与该多个次级url信息对应的一个或多个次级索引值,则该一个或多个次级索引值可以作为与顶层url信息对应的索引值的次级索引值队列。此种情况下,具体可以通过图10中描述的方法存储次级url信息,在此不再详述。
本公开实施例通过上述预定规则存储url信息,可使得计算节点根据第一子空间中的索引值获取第二子空间中的url信息,以根据url信息执行爬虫任务。
根据本公开的实施例,为了便于计算节点在获取爬虫任务时,能够从第一子空间中获取对应爬虫任务的url信息的索引值,任务信息例如还可以包括任务标识信息。该任务标识信息例如可以包括标识每个任务的唯一ID(taskID)以及标识每个任务的批次号(flag),以便于计算节点根据该任务标识信息获取爬虫任务的任务信息。
相应地,如图3所示,本公开实施例的方法例如还可以包括操作S3034:将至少一个待执行任务中每个待执行任务的任务信息包括的任务标识信息存入预设空间的第三子空间。则计算节点在获取爬虫任务时,可以通过图7所示的方法来获取,在此不再详述。
图4A示意性示出了根据本公开第二实施例的任务调度方法的流程图。
根据本公开的实施例,考虑到在爬虫任务被计算节点获取之前,用户根据实际需求可能会需要暂停爬虫任务的消费。则为了避免该需要暂停的爬虫任务被计算节点获取,如图4A所示,本公开实施例的任务调度方法除了操作S201~操作S203之外,还可以包括操作S404。该操作S404在操作S203之后执行。
在操作S404,响应于停止执行第二待执行任务的操作,删除第三子空间中存储的第二待执行任务的第二任务信息包括的任务标识信息。其中,停止执行第二待执行任务的操作例如可以是用户对图1中的调度装置110执行的操作。第二待执行任务可以是操作S201描述的至少一个待执行任务中的任意一个待执行任务。
则通过上述操作S404,计算节点在获取url信息时,由于第三子空间中没有第二待执行任务的任务标识信息,因此无法获取到该第二待执行任务的url信息,也就无法执行该第二待执行任务。
相应地,若在通过上述操作S404停止第二待执行任务后,若用户想重新恢复第二待执行任务的消费,则只需要向调度装置110发送恢复指令,使得该调度装置110将第二待执行任务的任务标识重新存入第三子空间即可。相应地,如图4A所示,本公开实施例的任务调度方法还可以包括操作S405,响应于恢复执行第二待执行任务的操作,将第二待执行任务的第二任务信息包括的任务标识信息重新存入第三子空间。该操作S405可以在操作S404之后执行。
图4B示意性示出了根据本公开第三实施例的任务调度方法的流程图。
根据本公开的实施例,考虑到在计算节点执行完第三待执行任务(即消费完第三待执行任务包括url信息)后,能够得到该第三待执行任务包括的url信息针对的页面的数据。因此,为了避免对预定空间的占用且为了避免该第三待执行任务的重复执行,计算节点一般会删除预定空间中该第三待执行任务的任务信息。相应地,为了避免作为冗余数据的第三待执行任务的状态信息对预定空间的占用,则该调度装置110还可以在计算节点执行删除预定空间中第三待执行任务的任务信息的操作时,删除预定空间中存储的该第三待执行任务的状态信息。因此,如图4B所示,本公开实施例的方法除了操作S201~操作S203外,还可以包括操作S406,响应于计算节点删除预定空间内第三待执行任务的任务信息的操作,删除预定空间中存储的第三待执行任务的状态信息。其中,第三待执行任务可以是操作S201描述的多个待执行任务中的任意一个任务。操作S406可以在操作S201~操作S203之后执行。
根据本公开的实施例,为了便于调度管理,该待执行任务的状态信息例如可以存储在预定空间中的第五子空间中,且每个待执行任务的状态信息可以以map结构存储,每个状态信息以任务信息中的任务标识信息为关键字存储。则操作S406即为根据计算节点删除的第三待执行任务的任务标识信息,先从第五子空间中查询该第三待执行任务的状态信息,再删除查询到的状态信息。
图4C示意性示出了根据本公开第四实施例的任务调度方法的流程图。
根据本公开的实施例,考虑到在爬虫任务被计算节点获取之前,根据实际需求,用户可能不再需要通过消费第四待执行任务来获取数据。则用户可通过向调度装置110发送中止指令,使得调度装置110响应于该中止指令删除预定空间中存储的该某个待执行任务的任务标识信息。从而防止计算节点获取第四待执行任务的url信息针对的页面的数据。同时,为了避免对冗余数据对预定空间的占用,还可以同时删除预定空间中存储的该第四待执行任务的任务信息。
因此,如图4C所示,本公开实施例的任务调度方法除了操作S201~操作S203外,还可以包括操作S407,响应于中止执行第四待执行任务的操作,删除预定空间内第四待执行任务的任务信息和状态信息。其中,第四待执行任务为操作S201描述的至少一个待执行任务中的任意一个待执行任务。该操作S407可以在操作S201~操作S203之后执行。
图5示意性示出了根据本公开第五实施例的任务调度方法的流程图。
根据本公开的实施例,为了避免正在执行某个爬虫任务的计算节点因宕机而导致该某个爬虫任务的url信息无法正常被消费的情况发生,如图5所示,本公开实施例的任务调度方法除了操作S201~操作S203外,还可以包括操作S508~操作S512。其中,操作S201~操作S203即为图2中的操作S201~操作S203,图5中不再赘述。操作S508~操作S512可以在操作S203之后执行。
在操作S508,监听计算节点的实时状态;在操作S509,在计算节点的实时状态表征所述计算节点宕机的情况下,获取所述预定空间的第四子空间中存储的与所述计算节点对应的第二请求数据。
根据本公开的实施例,如图1所示,调度装置110可以与计算节点集群130中的各个计算节点通信链接,通过心跳机制来监听计算节点的实时状态。如果该调度装置110检测到某个计算节点在一段时间内没有心跳,则判定该某个计算节点宕机。
其中,为了便于调度装置110确定该宕机的计算节点是否存在获取了但没消费完的url信息,计算节点在获取到某个待执行任务的url信息后,可以将该url信息从第二子空间中转移至第四子空间,并在消费完该url信息后,删除第四子空间的该url信息。具体例如可以通过图12描述的操作S1219~操作S1220转移获取的url信息,并将存入第四子空间中的url信息标识计算节点的ID,以及通过操作S1221删除请求数据,在此不再详述。则上述操作S508具体即为:根据实时状态表征宕机的计算节点的ID,从第四子空间中获取该宕机计算节点未消费完成的url信息。
具体地,计算节点未执行完的url信息具体例如可以是第二请求数据,则在获取到第二请求数据后,即可执行操作S510~操作S512,以将该第二请求数据重新放入第二子空间。在操作S510,根据加密规则,对第二请求数据加密,生成与第二请求数据对应的第二索引值;在操作S511,将第二索引值存入与第二请求数据所属的任务信息对应的索引值队列中;以及在操作S512,将第二请求数据存入第二子空间,形成与第二索引值对应的第二请求数据集合。根据本公开的实施例,该操作S510~操作S512的实现方法类似于操作图3中的操作S3031~操作S3033,在此不再赘述。
综上可知,本公开实施例的任务调度方法,通过将宕机计算节点未消费完的url信息重新放入预定空间,可以便于其他计算节点继续获取执行,从而实现了宕机时爬虫任务的恢复,保证爬虫任务的完整实现。
图6示意性示出了根据本公开第一实施例的计算节点执行任务的方法流程图。
在通过图2描述的任务调度方法将待执行任务的任务信息和状态信息放入预定空间后,图1中计算节点集群130包括的每个计算节点即可通过开启单个或多个线程并行且循环地自预定空间中获取url信息,以爬取url信息针对页面的数据。
相应地,如图6所示,本公开实施例还提供了一种计算节点执行任务的方法,包括操作S601~操作S604。该操作S601~操作S604可以有图1中计算节点集群130中的任意一个计算节点与其他计算节点并行循环的执行。再者,在该任意一个计算节点开启了多个线程的情况下,该多个线程也可并行循环的执行操作S601~操作S604。
在操作S601,从预定空间中获取至少一个待执行任务的任务信息和状态信息,任务信息包括针对页面的至少一个请求数据,状态信息能够表征待执行任务是否执行完成。在操作S602,根据获取的至少一个待执行任务中第一待执行任务的第一状态信息,确定是否爬取至少一个第一请求数据针对的页面的数据。其中,至少一个第一请求数据属于第一待执行任务的第一任务信息。
根据本公开的实施例,状态信息包括表征待执行任务是否执行完成的待消费量,该待消费量的初始值具体可以是通过图2描述的操作S202获取的为正整数的预定值。则上述操作S602具体可以是,在第一待执行任务的第一状态信息包括的第一待消费量的值为正整数的情况下,确定爬取至少一个第一请求数据针对的页面的数据。其中,第一待执行任务可以是预定空间中存储的多个任务信息对应的多个待执行任务中的任意一个任务。
然后在操作S603,在确定爬取至少一个第一请求数据针对的页面的数据的情况下,获取至少一个第一请求数据中的一个或多个第一请求数据;以及在操作S604,爬取一个或多个第一请求数据针对的页面的数据。
根据本公开的实施例,上述操作S604具体可以是,向存储有获取的一个或多个第一请求数据针对的页面的网络服务器发送请求,将网络资源从网络流中读取出来,保存在计算节点本地或存入数据库120中。
其中,每个计算节点开启的线程数可以根据每个计算节点的计算能力,以及该每个计算节点执行除爬虫任务外的其他任务需要占用的资源来确定。本公开实施例通过将待执行任务的任务信息和状态信息存入预定空间,可以实现调度装置与计算节点的解耦合。使得各个计算节点多线程、分布式地执行爬虫任务,且在执行完当前任务后,再次循环执行重新获取的爬虫任务,直至所有爬虫任务均被执行完。因此,可以大大提高数据的爬取效率。
图7示意性示出了根据本公开第一实施例的获取第一请求数据的流程图。
根据本公开的实施例,操作S601中描述的预定空间例如可以包括第一子空间和第二子空间,该第一子空间和第二子空间可以分别通过图3描述的操作S3032和操作S3033存入索引值队列和请求数据集合。
具体地,第一子空间存储有与第一任务信息对应的第一索引值队列,该第一索引值队列包括至少一个第一索引值。该至少一个第一索引值是根据加密规则,对第一任务信息包括的至少一个第一请求数据加密得到的。具体地,每个顶层请求数据可以加密生成有一个索引值。该至少一个索引值可以是通过图3描述的操作S3031得到的,在此不再赘述。
第二子空间存储有与至少一个第一索引值一一对应的至少一个第一请求数据集合,每个第一请求数据集合包括一个或多个第一请求数据,该至少一个第一请求数据集合的并集包括至少一个第一请求数据,且不同的第一请求数据集合的交集为空。
相应地,如图7所示,图6中的操作S603可以包括操作S7031~操作S7033。在操作S7031,确定第一子空间中与第一任务信息对应的第一索引值队列;在操作S7032,从第一索引值队列中获取一个第一索引值;以及在操作S7033,根据一个第一索引值,从第二子空间获取所述一个或多个第一请求数据。
根据本公开的实施例,在第一待执行任务的第一任务信息包括多个顶层请求数据的情况下,第一索引值队列中则可以具有多个第一索引值。则为了便于任务的顺利进行,操作S7032需要从该第一索引值队列中获取一个第一索引值。通常,例如可以是获取第一索引值队列中位于队头的第一索引值。
根据本公开的实施例,在通过操作S7033获取到第二子空间中存储的第一索引值对应的所有请求数据的情况下,为了避免重复获取,本公开实施例的方法还可以包括删除第一子空间中的第一索引值。
根据本公开的实施例,在确定第一索引值队列时,为了将不同待执行任务的索引值队列区分开,待执行任务的任务信息还可以包括任务标识信息。相应地,上述预定空间还包括第三子空间,存储有至少一个待执行任务中每个待执行任务的任务信息包括的任务标识信息。根据本公开的实施例,任务标识信息与图3操作S3034中描述的任务标识信息相同,且该第三子空间中存储的任务标识信息可以是通过操作S3034存入的,在此不再赘述。
相应地,如图7所示,图6中操作S603还可以包括操作S7034,该操作S7034在操作S7031之前执行。具体地,在操作S7034,从预定空间的第三子空间中获取第一任务信息包括的第一任务标识信息。则操作S7031具体可以是根据操作S7034获取的第一任务标识信息确定第一索引值队列。
图8示意性示出了根据本公开第一实施例在爬取成功的情况下计算节点执行任务的方法流程图。
根据本公开的实施例,在操作S604爬取为顶层url信息的第一请求数据针对的页面时,若爬取成功,则考虑到当前第一待执行任务的第一请求数据已消费完,则需要将第一待消费量减1。其中,在该一个或多个第一请求数据不是底层请求数据时(其中,底层请求数据是指针对的页面中不再包括次级请求数据的底层网页链接,即底层url信息),则肯定会爬取到第一次级请求数据。在后续的任务消费过程中,还需要爬取该第一次级请求数据针对的页面。因此,该第一待执行任务还未被消费完,则需要根据第一次级请求数据的个数,对第一待消费量的值做相应的加法。
因此,如图8所示,在操作S604爬取成功的情况下,本公开实施例的计算节点执行任务的方法还包括操作S806~操作S808。
在操作S806,判断爬取得到的所述一个或多个第一请求数据针对的页面的数据中是否包括第一次级请求数据。在爬取得到的所述一个或多个第一请求数据针对的页面的数据中,包括第一次级请求数据的情况下,则执行操作S807。
在操作S807,将第一待消费量的值加m后减1,其中,m为爬取得到的数据中包括的针对不同的次级页面的第一次级请求数据的个数,该m个第一次级请求数据与一个或多个第一请求数据对应。从而可以使得计算节点在后续执行该第一待执行任务时,能够根据该第一待消费量确定该第一待执行任务还未被执行完,即该第一待执行任务包括的url信息还未被完全消费完。
而在爬取得到的一个或多个第一请求数据针对的页面的数据中不包括第一次级请求数据的情况下,则执行操作S808。在操作S808,将第一待消费量的值减1。在第一待执行任务仅包括一个第一请求数据,且该第一请求数据针对的页面中不包括次级请求数据时,通过操作S604即可完成该第一请求数据的消费,即完成了第一待执行任务的执行。则通过上述操作S808之后,该第一待消费量即为0,从而可以使得其他计算节点得知该第一待执行任务已被执行完,无需再获取该第一待执行任务包括的第一请求数据来消费。
根据本公开的实施例,所述的状态信息例如还可以包括针对每个待执行任务的总消费次数。该总消费次数为0。则在操作S604爬取得到一个或多个第一请求数据针对的页面的数据的情况下,本公开实施例的计算节点执行任务的方法还可以包括以下操作:将总消费次数的值加1。
根据本公开的实施例,由于爬虫任务的执行为生产、消费模式,则在对url信息总数不清楚的情况下,通过上述操作可以精准的判断待执行任务是否完成。这是由于其中的第一待消费量具体为通过消费计数器的方式设置的。即获取的数据中每增加一个url信息,该第一待消费量就增加1,每消费完成一个url信息,第一待消费量就减1,则第一带消费量为0,即可说明已完成待执行任务的执行。通过上述方法,各个计算节点在消费完url信息后,通过对每个待执行任务的状态信息包括的总消费的设置,可以实时地同步到爬取成功的url信息的数量。
图9示意性示出了根据本公开实施例在爬取得到的数据中包括第一次级请求数据的情况下计算节点执行任务的方法流程图。
根据本公开的实施例,在操作S604中爬取得到一个或多个第一请求数据对应的数据中包括第一次级请求数据(即次级url信息)的情况下,为了便于该次级url信息的消费,还应该将该次级url信息放入预定空间,以供其他计算节点并行循环的消费。因此,如图9所示,本公开实施例的计算节点执行任务的方法还可以包括操作S909~操作S911。该操作S909~操作S911可以在操作S807之后执行,也可以与操作S807同时执行。
在操作S909,根据加密规则,对第一次级请求数据加密,得到与第一次级请求数据对应的第一次级索引值;在操作S910,将第一次级索引值存入第一子空间中第一索引值的次级索引值队列中;在操作S911,将第一次级请求数据存入第二子空间中,形成与第一次级索引值对应的第一次级请求数据集合。
根据本公开的实施例,所述的加密规则与图3中操作S3031描述的加密规则相似,且操作S909得到第一次级索引值的方法与操作S3031类似,在此不再赘述。为了使得同一待执行任务的所有索引值都位于第一子空间中的同一索引值队列中,则可以将根据属于一个或多个第一请求数据的第一次级请求数据生成的第一次级索引值,存为根据一个或多个第一请求数据生成的第一索引值的次级索引值队列。因此,操作S910即为,将第一次级索引值存入第一子空间中第一索引值的次级索引值队列中。同时,为了使得该第一次级请求数据能够以该第一次级索引值为索引,且为了便于第一次级请求数据的获取,则通过操作S911可以将该第一次级请求数据存入第二子空间,并作为单独的一个集合。
图10示意性示出了根据本公开实施例在爬取失败的情况下计算节点执行任务的方法流程图。
据本公开的实施例,考虑到可能存在一个或多个请求数据不正确或计算节点无法正确识别请求数据的情况,因此操作S604爬取一个或多个第一请求数据针对的页面时,可能会爬取失败。则为了确定该请求数据是否正确,可以对消费失败的请求数据进行多次的消费,若多次消费均失败,则可以确定请求数据有问题。为了表征请求数据的消费次数,每个请求数据还可以各自具有标签,该标签用于指示每个请求数据的获取次数(即消费次数)。再者,为了进一步的了解每个待执行任务的消费情况,每个待执行任务的状态信息例如还可以包括有总消费次数和消费失败次数。
相应地,在操作S604未爬取得到一个或多个第一请求数据针对的页面的数据的情况下,如图10所示,本公开实施例的计算节点执行任务的方法还可以包括操作S1012~操作S1018。该操作S1012~操作S1018在操作S604之后,且确定未爬取到数据的情况下执行。
具体地,在操作S1012,将总消费次数的值与消费失败次数的值均加1。考虑到即使未爬取到数据,也对该一个或多个第一请求数据进行了一次消费,且未爬取到数据说明消费失败。因此通过操作S1012的执行,可以根据总消费次数的值与消费失败次数的值,实时同步到爬取失败的数量信息和总消费的数量信息。
在操作S1013,判断一个或多个第一请求数据的标签指示的获取次数是否满足预定条件。该操作具体即为判断对一个或多个第一请求数据的消费次数是否满足预定条件。例如,对该一个或多个第一请求数据的消费次数是否小于预定消费次数。其中,预定消费次数可以根据实际需求进行设定,例如该预定消费次数可以为5,本公开对此不作限定。
在一个或多个第一请求数据的标签指示的获取次数满足预定条件的情况下,则说明该一个或多个第一请求数据的消费次数小于预定消费次数,不能准确确定是否是第一请求数据不准确。则可以继续将该一个或多个第一请求数据放入第二子空间,供其他计算节点再次消费。即可以执行操作S1014~操作S1017。
在操作S1014,根据加密规则,对一个或多个第一请求数据加密,得到第三索引值;在操作S1015,将第三索引值放入第一任务信息的第一索引值队列中;在操作S1016,将所述一个或多个第一请求数据存入第二子空间,形成与第三索引值对应的第三请求数据集合,以使计算节点或其他计算节点重新获取;以及在操作S1017,将所述一个或多个第一请求数据的标签指示的获取次数的值加1。
其中,操作S1014~操作S1016的实现方法与图3描述的操作S3031~操作S3033类似,在此不再赘述。需要说明的是,之所以需要对该一个或多个第一请求数据进行重新加密以及形成一个新的请求数据集合,是因为在将该一个或多个第一请求数据存入第二子空间的过程中,无法确定其所属的请求数据集合。
在所述一个或多个第一请求数据的标签指示的获取次数不满足预定条件的情况下,则说明该一个或多个第一请求数据的消费次数不小于预定消费次数。此时可以确定该第一请求数据不准确,该第一请求数据所属的第一待执行任务无法被完全执行。则为了避免其他计算节点再次执行该第一待执行任务导致的资源浪费,可以执行操作S1018,将所述第一待消费量的值减1。即使得该第一待执行任务的状态信息包括的第一待消费量为0,从而有效防止其他计算节点执行该第一待执行任务。
根据本公开的实施例,上述获取次数的值、总消费次数的值和消费失败次数的值均为初始值为0的自然数。
综上可知,本公开实施例通过为url信息设置指示url信息的获取次数(即重试次数)的标签,可以使得请求数据在消费失败时直接放回到待爬取队列中,从而支持了爬取失败时的重试,可以避免单个线程反复重试等待的情况,并因此可以在一定程度上提高爬取效率。
图11A示意性示出了根据本公开第二实施例的获取第一请求数据的流程图。
根据本公开的实施例,考虑到在层级很深的情况下,爬取数据的过程中往往会爬取得到多个级别的url信息,且根据较高级别的每个url信息又可以爬取到较低级别的多个url信息,依次类推,若多个待执行任务均被执行,往往会使得第一子空间中多个索引值队列中的每个索引值队列存在过多级别的多个索引值,且第二子空间中往往也会存在过多的请求数据集合。此种情况下,计算节点在从第一子空间获取索引值及从第二子空间中获取请求数据的过程中,往往都需要较长时间,这无疑会降低爬取效率。
为了解决上述问题,索引值队列例如可以采用先进后出的方式,即在把底层的索引值对应的底层url信息消费后,再消费次底层的url信息,从而在一定程度上克制url信息数量的增长速度,避免第一子空间存储过多索引值,避免第二子空间存储过多url信息。
相应地,如图11A所示,图7中的操作S7033可以包括操作S70331~操作S70334。
在操作S70331,判断一个第一索引值的次级索引值队列中是否存在第一次级索引值。在存在第一次级索引值的情况下,执行操作S70332~操作S70333。在操作S70332,获取一个第一次级索引值;在操作S70333,从第二子空间获取与一个第一次级索引值对应的第一次级请求数据集合中的一个或多个次级请求数据。而在不存在第一次级索引值的情况下,执行操作S70334,从第二子空间获取与一个第一索引值对应的第一请求数据集合中的一个或多个请求数据。
根据本公开的实施例,在第一索引值队列仅包括有两级索引值队列的情况下,操作S70331中的次级索引值队列即为第二级索引值队列。若第一索引值队列包括有三级甚至更多级索引值队列的情况下,操作S70331中的次级索引值队列即为最后一级索引值队列。从而保证获取的一个或多个请求数据为底层url信息。
图11B示意性示出了根据本公开第三实施例的获取第一请求数据的流程图。
根据本公开的实施例,为了提高需要长时间运行或重要程度较高的爬虫任务的爬取效率,例如还可以为每个爬虫任务设置优先级。则本公开实施例的计算节点执行任务的方法在执行任务时,对于不同优先级的爬虫任务,一次爬取的页面数量可以不同。例如,对于优先级较高的爬虫任务,一次爬取的页面数量可以设置为较高的值。
具体地,待执行任务的任务信息还可以包括优先级信息。该优先级信息表征待执行任务的优先级。相应地,如图11B所示,图7中的操作S7033具体可以包括操作S70335~操作S70338。
在操作S70335,根据第一待执行任务的第一任务信息包括的优先级信息,确定获取的第一请求数据的个数为n,n为自然数。其中,根据优先级信息确定的n的值可以根据实际需求进行设定。例如,当优先级信息表征该第一待执行任务的优先级为1,则可以确定n为1;当优先级信息表征该第一待执行任务的优先级为2,则可以确定n为2。依次类推,当优先级信息表征该第一待执行任务的优先级越高时,确定的n值越大。优先级级数与n的值可以为正比关系,也可以为指数关系等。
在操作S70336,判断一个第一索引值对应的第一请求数据集合包括的第一请求数据个数是否小于n。即确定可获取的第一请求数据的个数是否小于操作S70335确定的需要获取的请求数据的个数n。
在所述一个第一索引值对应的第一请求数据集合包括的一个或多个第一请求数据的个数小于n的情况下,则执行操作S70337,获取对应的第一请求集合包括的所述一个或多个第一请求数据。在所述一个第一索引值对应的第一请求数据集合包括的一个或多个第一请求数据的个数大于等于n的情况下,则执行操作S70338,获取对应的第一请求集合包括的一个或多个第一请求数据中的n个第一请求数据。
综上可知,本公开实施例通过为待执行任务设置优先级信息,可以将优先级信息换算为需要获取的url信息的条数,从而有效地控制不同任务的优先级,提高优先级高的爬虫任务的爬取效率。
图12示意性示出了根据本公开第二实施例的计算节点执行任务的方法流程图。
为了便于在计算节点宕机时调度装置对未消费完的url信息的调度,计算节点可以将获取的请求数据存入预定空间中单独的第四子空间中。相应地,如图12所示,本公开实施例的计算节点执行任务的方法除了操作S601~操作S604外,还可以包括操作S1219~操作S1221。其中,操作S1219~操作S1220在操作S604之前执行,操作S1221在操作S604之后执行。
其中,在操作S603获取到一个或多个第一请求数据的情况下,执行操作S1219~操作S1220。在操作S1219,删除第二子空间中存储的所述一个或多个第一请求数据;在操作S1220,将一个或多个第一请求数据存入第四子空间。而在操作S604爬取得到所述一个或多个第一请求数据针对的页面的数据之后,执行操作S1221,删除第四子空间中存储的所述一个或多个第一请求数据。
通过上述操作S1219~操作S1221的设置可知,当计算节点爬取一个或多个第一请求数据针对的页面的数据时,该一个或多个第一请求数据存在第四子空间中。而当计算节点消费完该一个或多个第一请求数据后,第四子空间中则不再存在该一个或多个第一请求数据。则调度装置110通过访问预定空间的第四子空间,即可确定宕机的计算节点是否有还未消费完的请求数据。在存在的情况下,即可通过图5描述的操作S509~操作S512将该未消费完的请求数据重新放入第二子空间,以便于其他计算节点消费。
图13示意性示出了根据本公开第三实施例的计算节点执行任务的方法流程图。图14示意性示出了根据本公开实施例的爬取数据的时序图。
如图14所示,所述的预定空间例如可以为Redis缓存,该缓存中设置有五个子空间。
其中,第一子空间用于以列表list形式存储待爬取的url信息的key值队列。其中,key值即为上文描述的索引值。该key值队列根据包括的key值对应的url信息针对的页面的等级可以为多等级的队列。
第二子空间用于以集合set结构存储待爬取的url集合,该url集合是以key值为索引存储的。该url集合中每个url信息例如还可以附有url信息的重试次数(即上文中指示获取次数的标签)和一些附加字段。设计成set结构时考虑到出现重复的url信息的情况时,可依赖set去重,避免重复爬取的情况发生。
第三子空间用于存储task队列(列表list形式),具体用于存储待执行任务task的任务标识信息,从而组成task队列,该队列中的每个成员为一个任务的任务标识信息,该任务标识信息例如可以包括任务标识taskID和任务批次号flag。
第四子空间用于以集合set结构存储各个计算节点正在消费的url信息,该些正在消费的url信息具体可以标注有计算节点的ID标识,以便于后续在计算节点宕机时,确定该计算节点正在消费的url信息。
第五子空间用于以map结构存储待执行任务的状态信息。其可以包括有待消费次数(ref)、消费失败次数(failCnt)和总消费次数(totalCnt)。还可以包括有任务状态(status),用于表征任务是否执行完成。当ref为0时,表明任务已执行完成,任务状态可以为已完成。当ref大于0时,该ref的值即为剩余需要消费的url信息的条数。消费失败次数时消费url信息失败的条数。总消费次数为总的消费的url信息的条数。任务状态有任务已完成和任务正在进行中两个值。
如图14所示,爬取数据时除了上述Redis缓存外,还需要爬虫调度装置和爬虫消费线程。爬虫调度装置可以为图1中的调度装置110,爬虫消费线程则可以为图1中计算节点集群130中某个计算节点的一个线程。
在爬取数据之前,首先需要爬虫调度装置将爬虫任务放入Redis缓存中。具体地,可以包括以下步骤:首先,将爬虫任务的任务信息中的任务标识信息放入第三子空间的task队列中。然后,为该爬虫任务设置状态信息,具体即为设定ref、failCnt和totalCnt的初始值分别为1、0、0,并将该ref、failCnt和totalCnt存入第五子空间。然后,将任务信息包括的url信息根据md5加密规则进行加密,生成key值,并将生成的key值存入第一子空间,形成待爬取的url信息的key队列中。并同时以该key为索引将初始url信息存入第二子空间,形成url集合。
爬虫消费线程在爬取数据的过程中,如图13所示,首先从task队列中获取任务标识信息(操作S1301),具体先从task队列中获取爬虫任务的taskID和flag,然后根据该taskID和flag,获取第三子空间中对应的状态表中的ref值,并判断该ref值是否小于等于0(操作S1302)。
在该ref值小于等于0的情况下,则说明该爬虫任务已执行完,则将该爬虫任务对应的状态表的status设置为已完成(操作S1303),并删除task队列里该爬虫任务的任务标识信息(操作S1304),以防止再次被其他爬虫消费线程获取。在删除后,该爬虫消费线程即可返回重新获取别的任务标识信息。
在该ref值大于0的情况下,则说明该爬虫任务还未执行完,则根据获取的任务标识信息确定第一子空间的todo队列中对应的key值队列(操作S1305),并从该todo队列中key值队列的对头获取一个url集合的key值(操作S1306)。然后在第二子空间中根据该url集合的key值取出(pop)一个url信息(操作S1307)。然后判断该取出的url信息是否为空(操作S1308),若为空,则说明该url集合中的url信息已被消费完,则删除第二子空间中的该url集合(操作S1309),并从todo队列中删除与该url集合对应的key值(操作S1310)。在删除key值后,该爬虫消费线程即可返回重新获取任务标识信息。
若url集合不为空,则依次执行以下操作:将该pop的url信息放入第四子空间的doing队列(操作S1311),并爬取该url信息针对的页面,以获取下一级需要爬取的url信息(操作S1312)。判断是否爬取成功(操作S1313)。
若爬取成功,则将状态表中ref加上产生的下一级需要爬取的url信息的个数(操作S1314)。把下一级需要爬取的url信息通过md5加密后生成key值,并将该key值放入第一子空间的todo队列中(操作S1315)。将产生的下一级需要爬取的url信息作为url集合以生成的key值为redis的key名保存至第二子空间(操作S1316)。删除第四子空间中doing队列里被爬取的url信息(操作S1317),更新第三子空间中状态表里的ref,减去多加的个数(即为下一级需要爬取的url信息中重复信息的个数)再减去1(操作S1318),并将状态表里的totalCnt加1(操作S1319)。在执行完后,爬虫消费线程即可返回重新获取任务标识信息。
若爬取成功,但未产生下一级需要爬取的url信息时,则删除第四子空间中doing队列里被爬取的url信息(操作S1317),更新第三子空间中状态表里的ref,将ref值减去1,并将状态表里的totalCnt加1(操作S1319)。在执行完后,爬虫消费线程即可返回重新获取任务标识信息。
若爬取失败,则先删除第四子空间中doing队列里被爬取的url信息(操作S1320),然后判断该url信息的重试次数是否已达到重试最大次数(操作S1321)。若已达到重试最大次数,则将状态表的totalCnt加1,failCnt加1,ref减1(操作S1322)。在修改了状态表后,爬虫消费线程即可返回重新获取任务标识信息。若还未达到重试最大次数,则将url信息的重试次数加1,并将url信息的key值归还到第一子空间的todo队列,并将url信息归还至第二子空间的url集合(操作S1323)。该操作S1323具体可以是通过类似于操作S1315~操作S1318的方法,对该url信息重新加密,重新生成key值,并将key值放入todo队列,将url信息作为新的url集合存入第二子空间,已供该爬虫消费线程或其他爬虫消费线程重新获取。然后判断是否归还成功(操作S1324)。若归还成功,爬虫消费线程即可返回重新获取任务标识信息。若归还不成功,则将状态表ref值减1(操作S1325),这是由于若归还不成功,则说明爬虫任务存在问题,则不再重新执行该爬虫任务。在将状态表ref值减1后,爬虫消费线程则返回重新获取任务标识信息。
根据本公开的实施例,由于任务的爬取状态可以被爬虫消费线程记录在状态表中,并且会实时更新。并且由于状态表存在Redis中,可以设置有过期时间,或可以被爬虫调度装置清除。则爬虫调度装置还需要定时将爬虫任务的状态信息从状态表中取出存入日志表(mysql),以在日志表中记录任务状态信息(failCnt、totalCnt及status)。
根据本公开的实施例,如果爬虫任务正常执行完成,通过上述方法,爬虫消费线程会将任务相关的todo队列、url集合、doing队列和task队列均清理干净。因此爬虫调度装置只需要在同步完任务的状态信息后,清理状态表即可。
根据本公开的实施例,如果任务需要中止,由于任务相关的队列都会有残留,则爬虫调度装置则需要删除该任务相关的所有队列。而如果任务需要暂停,则爬虫调度装置只需要删除task队列的相关任务标识信息。再需要再次启动该暂停的任务时,爬虫调度装置则只需要将任务标识信息重新放入task队列即可。
综上可知,本公开实施例的爬取数据的技术方案,能够多线程地爬取多级页面,且可通过多开线程、分布式部署来大大提高爬取效率。且通过第一子空间和第二子空间的设置,可以解决再生产、消费url信息时可能存在的大key问题。通过在url信息中设置重试次数,失败直接放回到待爬取队列的方式,支持了爬取失败时的重试,不用让一个线程反复重试等待,因此进一步提高了爬取效率。
图15示意性示出了根据本公开实施例的任务调度装置的结构框图。
如图15所示,本公开实施例的任务调度装置1500包括第一信息获取模块1510、状态信息获取模块1520和信息存储模块1530。
第一信息获取模块1510用于获取至少一个待执行任务的任务信息,该任务信息包括针对页面的至少一个请求数据(操作S201)。状态信息获取模块1520用于获取为至少一个待执行任务分配的状态信息(操作S202),该状态信息用于表征待执行任务是否执行完成。信息存储模块1530用于根据预定规则,将至少一个待执行任务的任务信息和状态信息存入预定空间(操作S203)。
根据本公开的实施例,上述状态信息包括表征待执行任务是否执行完成的待消费量,上述为至少一个待执行任务中每个待执行任务分配的状态信息包括的待消费量的值为预定值,该预定值为正整数。
根据本公开的实施例,上述信息存储模块1530包括第一加密子模块1531、第一索引值存储子模块1532和第一请求数据存储子模块1533。第一加密子模块1531用于根据加密规则,将第一待执行任务的第一任务信息包括的至少一个第一请求数据加密,生成至少一个第一索引值,该至少一个第一索引值构成与第一任务信息对应的第一索引值队列(操作S3031)。第一索引值存储子模块1532用于将第一索引值队列存入预定空间的第一子空间(操作S3032)。第一请求数据存储子模块1533用于将至少一个第一请求数据存入预设空间的第二子空间,形成与至少一个第一索引值一一对应的至少一个第一请求数据集合(操作S3033)。其中,每个第一请求数据集合包括一个或多个第一请求数据,至少一个第一请求数据集合的并集包括至少一个第一请求数据,且不同的第一请求数据集合的交集为空。第一待执行任务是至少一个待执行任务中的任意一个待执行任务。
根据本公开的实施例,上述任务信息还包括任务标识信息。上述信息存储模块1530还包括标识信息存储子模块1534,用于将至少一个待执行任务中每个待执行任务的任务信息包括的任务标识信息存入预设空间的第三子空间(操作S3034)。上述任务调度装置1500还包括标识信息删除模块1540,该标识信息删除模块1540用于响应于停止执行第二待执行任务的操作,删除第三子空间中存储的第二待执行任务的第二任务信息包括的任务标识信息(操作S404)。并且/或者,上述标识信息存储子模块1534还用于响应于恢复执行第二待执行任务的操作,将第二待执行任务的第二任务信息包括的任务标识信息重新存入第三子空间(操作S405)。其中,第二待执行任务是至少一个待执行任务中的任意一个待执行任务。
根据本公开的实施例,上述任务调度装置1500还包括状态监听模块1550和第一请求数据获取模块1560。状态监听模块1550用于监听计算节点的实时状态(操作S508)。第一请求数据获取模块1560用于在计算节点的实时状态表征计算节点宕机的情况下,获取预定空间的第四子空间中存储的与计算节点对应的第二请求数据(操作S509)。该第四子空间是在计算节点从第二子空间获取到第二请求数据的情况下,存入第二请求数据的。相应地,上述第一加密子模块1531还用于根据加密规则,对该第二请求数据加密,生成与第二请求数据对应的第二索引值(操作S510)。第一索引值存储子模块1532还用于将第二索引值存入与第二请求数据所属的任务信息对应的索引值队列中(操作S511)。第一请求数据存储子模块1533还用于将第二请求数据存入第二子空间,形成与第二索引值对应的第二请求数据集合(操作S512)。
根据本公开的实施例,上述任务调度装置1500还包括状态信息删除模块1570和任务信息删除模块1580。其中,状态信息删除模块1570用于响应于计算节点删除预定空间内第三待执行任务的任务信息的操作,删除预定空间中存储的第三待执行任务的状态信息(操作S406)。任务信息删除模块1580用于响应于中止执行第四待执行任务的操作,删除预定空间内第四待执行任务的任务信息,相应地,状态信息删除模块1570还用于响应于中止第四待执行任务的操作,删除预定空间内第四待执行任务的状态信息(操作S407)其中,第三待执行任务与第四待执行任务均为至少一个待执行任务中的任意一个待执行任务,第三待执行任务与第四待执行任务相同或不同。
图16示意性示出了根据本公开实施例的用于执行任务的装置的结构框图。
本公开实施例的用于执行任务的装置例如可以设置于计算节点中,用于使计算节点与其他计算节点并行循环的执行爬虫任务。如图16所示,该用于执行任务的装置1600包括第二信息获取模块1610、爬取确定模块1620、第二请求数据获取模块1630和爬取执行模块1640。
第二信息获取模块1610用于从预定空间中获取至少一个待执行任务的任务信息和状态信息,每个任务信息包括针对页面的至少一个请求数据,状态信息能够表征待执行任务是否执行完成(操作S601)。爬取确定模块1620用于根据获取的至少一个待执行任务中第一待执行任务的第一状态信息,确定是否爬取至少一个第一请求数据针对的页面的数据,该至少一个第一请求数据属于第一待执行任务的第一任务信息(操作S602)。第二请求数据获取模块1630用于在确定爬取至少一个第一请求数据针对的页面的数据的情况下,获取至少一个第一请求数据中的一个或多个第一请求数据(操作S603)。爬取执行模块1640用于爬取一个或多个第一请求数据针对的页面的数据(操作S604)。
根据本公开的实施例,上述状态信息包括表征待执行任务是否执行完成的待消费量。上述爬取确定模块1620具体用于:在第一待执行任务的第一状态信息包括的第一待消费量的值为正整数的情况下,确定爬取至少一个第一请求数据针对的页面的数据。其中,第一待消费量的初始值为预定值,所述预定值为正整数。
根据本公开的实施例,如图16所示,上述用于执行任务的装置1600还包括状态信息调整模块1650。在爬取得到的一个或多个第一请求数据针对的页面的数据中,包括m个针对不同的次级页面的第一次级请求数据的情况下,状态信息调整模块1650用于将所述第一待消费量的值加m后减1(操作S807)。其中,m个第一次级请求数据与一个或多个第一请求数据对应,m为正整数。或者,在爬取得到的一个或多个第一请求数据针对的页面的数据中不包括针对次级页面的第一次级请求数据的情况下,上述状态信息调整模块1650用于将第一待消费量的值减1(操作S808)。
根据本公开的实施例,上述预定空间包括第一子空间和第二子空间。第一子空间存储有与第一任务信息对应的第一索引值队列,该第一索引值队列包括至少一个第一索引值,该至少一个第一索引值是根据加密规则,对第一任务信息包括的至少一个第一请求数据加密得到的。第二子空间存储有与至少一个第一索引值一一对应的至少一个第一请求数据集合,每个第一请求数据集合包括一个或多个第一请求数据,该至少一个第一请求数据集合的并集包括至少一个第一请求数据,且不同的第一请求数据集合的交集为空。相应地,上述第二请求数据获取模块1630可以包括索引值队列确定子模块1631、索引值获取子模块1632和请求数据获取子模块1633。索引值队列确定子模块1631用于确定第一子空间中与第一任务信息对应的第一索引值队列(操作S7031)。索引值获取子模块1632用于从第一索引值队列中获取一个第一索引值(操作S7032)。请求数据获取子模块1633用于根据该一个第一索引值,从第二子空间获取一个或多个第一请求数据(操作S7033)。
根据本公开的实施例,上述任务信息还包括任务标识信息,上述预定空间还包括第三子空间。该第三子空间存储有至少一个待执行任务中每个待执行任务的任务信息包括的任务标识信息。相应地,上述第二请求数据获取模块1630还包括任务标识信息获取子模块1634,用于从第三子空间中获取第一任务信息包括的第一任务标识信息(操作S7034)。则索引值队列确定子模块1631根据任务标识信息获取子模块1634获取的第一任务标识信息来确定第一索引值队列。
根据本公开的实施例,上述预定空间还包括第四子空间,则,如图16所示,上述用于执行任务的装置1600还包括第二信息存储模块1660和/或请求数据删除模块1670,第二信息存储模块1660包括第二请求数据存储子模块1661。在请求数据获取子模块1633获取到一个或多个第一请求数据的情况下,第二信息存储模块1660的第二请求数据存储子模块1661用于将一个或多个第一请求数据存入第四子空间(操作S1220),请求数据删除模块1670则用于删除第二子空间中存储的所述一个或多个第一请求数据(操作S1219)。或者,在上述爬取执行模块1640爬取得到一个或多个第一请求数据针对的页面的数据之后,上述请求数据删除模块1670还用于删除第四子空间中存储的一个或多个第一请求数据(操作S1221)。
根据本公开的实施例,上述状态信息还包括总消费次数和消费失败次数。每个请求数据各自具有标签,该标签指示了每个请求数据的获取次数。如图16所示,上述用于执行任务的装置1600还包括获取次数确定模块1680和获取次数调整模块1690。第二信息存储模块1660还包括第二加密子模块1662和第二索引值存储子模块1663。在爬取执行模块1640未爬取得到一个或多个第一请求数据针对的页面的数据的情况下,上述状态信息调整模块1650还用于将总消费次数的值与消费失败次数的值均加1(操作S1012)。获取次数确定模块1680用于确定一个或多个第一请求数据的标签指示的获取次数是否满足预定条件(操作S1013)。在获取次数确定模块1680确定一个或多个第一请求数据的标签指示的获取次数满足预定条件的情况下,第二加密子模块1662用于根据加密规则,对一个或多个第一请求数据加密,得到第三索引值(操作S1014);第二索引值存储子模块1663用于将第三索引值放入第一任务信息的第一索引值队列中(操作S1015);第二请求数据存储子模块1661还用于将一个或多个第一请求数据存入第二子空间,形成与第三索引值对应的第三请求数据集合,以使计算节点或其他计算节点重新获取(操作S1016);上述获取次数调整模块1690用于将一个或多个第一请求数据的标签指示的获取次数的值加1(操作S1017)。在获取次数确定模块1680确定一个或多个第一请求数据的标签指示的获取次数不满足预定条件的情况下,上述状态信息调整模块1650还用于将第一待消费量的值减1(操作S1018)。并且/或者,在爬取执行模块1640爬取得到一个或多个第一请求数据针对的页面的数据的情况下,上述状态信息调整模块1650还用于将总消费次数的值加1。其中,获取次数的值、总消费次数的值和消费失败次数的值均为初始值为0的自然数。
根据本公开的实施例,在爬取执行模块1640爬取得到一个或多个第一请求数据针对的页面的数据中包括第一次级请求数据的情况下,上述第二加密子模块1662还用于根据加密规则,对第一次级请求数据加密,得到与第一次级请求数据对应的第一次级索引值(操作S909)。第二索引值存储子模块1663还用于将第一次级索引值存入第一子空间中第一索引值的次级索引值队列中(操作S910)。第二请求数据存储子模块1661还用于将第一次级请求数据存入第二子空间中,形成与第一次级索引值对应的第一次级请求数据集合(操作S911)。请求数据获取子模块1633可以包括第一确定单元16331和第一获取单元16332。其中,第一确定单元16331用于确定第一索引值的次级索引值队列中是否存在第一次级索引值(操作S70331)。在确定存在第一次级索引值的情况下,第一获取单元16332用于获取一个第一次级索引值,并从第二子空间获取与该一个第一次级索引值对应的第一次级请求数据集合中的一个或多个次级请求数据(操作S70332~操作S70333)。在确定不存在第一次级索引值的情况下,第一获取单元16332用于从所述第二子空间获取与上述一个第一索引值对应的第一请求数据集合中的一个或多个请求数据(操作S70334)。
根据本公开的实施例,上述任务信息还包括优先级信息,上述请求数据获取子模块1633可以包括第二确定单元16333和第二获取单元16334。第二确定单元16333用于根据第一待执行任务的第一任务信息包括的优先级信息,确定获取的第一请求数据的个数为n,n为自然数(操作S70335)。第二获取单元16334用于在所述一个第一索引值对应的第一请求数据集合包括的一个或多个第一请求数据的个数大于等于n的情况下,获取对应的第一请求集合包括的一个或多个第一请求数据中的n个第一请求数据(操作S70338);或者,第二获取单元16334在所述一个第一索引值对应的第一请求数据集合包括的一个或多个第一请求数据的个数小于n的情况下,获取对应的第一请求集合包括的一个或多个第一请求数据(操作S70337)。
根据本公开的实施例的模块、子模块、单元、子单元中的任意多个、或其中任意多个的至少部分功能可以在一个模块中实现。根据本公开实施例的模块、子模块、单元、子单元中的任意一个或多个可以被拆分成多个模块来实现。根据本公开实施例的模块、子模块、单元、子单元中的任意一个或多个可以至少被部分地实现为硬件电路,例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC),或可以通过对电路进行集成或封装的任何其他的合理方式的硬件或固件来实现,或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者,根据本公开实施例的模块、子模块、单元、子单元中的一个或多个可以至少被部分地实现为计算机程序模块,当该计算机程序模块被运行时,可以执行相应的功能。
例如,第一信息获取模块1510、状态信息获取模块1520、信息存储模块1530、标识信息删除模块1540、状态监听模块1550、第一请求数据获取模块1560、状态信息删除模块1570、任务信息删除模块1580、第一加密子模块1531、第一索引值存储子模块1532和第一请求数据存储子模块1533和标识信息存储子模块1534中的任意多个,或者第二信息获取模块1610、爬取确定模块1620、第二请求数据获取模块1630、爬取执行模块1640、状态信息调整模块1650、第二信息存储模块1660、请求数据删除模块1670、获取次数确定模块1680、获取次数调整模块1690、索引值队列确定子模块1631、索引值获取子模块1632、请求数据获取子模块1633、任务标识信息获取子模块1634、第二请求数据存储子模块1661、第二加密子模块1662、第二索引值存储子模块1663、第一确定单元16331、第一获取单元16332、第二确定单元16333和第二获取单元16334中的任意多个可以合并在一个模块中实现,或者其中的任意一个模块可以被拆分成多个模块。或者,这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合,并在一个模块中实现。根据本公开的实施例,第一信息获取模块1510、状态信息获取模块1520、信息存储模块1530、标识信息删除模块1540、状态监听模块1550、第一请求数据获取模块1560、状态信息删除模块1570、任务信息删除模块1580、第一加密子模块1531、第一索引值存储子模块1532和第一请求数据存储子模块1533和标识信息存储子模块1534中的至少一个,或者第二信息获取模块1610、爬取确定模块1620、第二请求数据获取模块1630、爬取执行模块1640、状态信息调整模块1650、第二信息存储模块1660、请求数据删除模块1670、获取次数确定模块1680、获取次数调整模块1690、索引值队列确定子模块1631、索引值获取子模块1632、请求数据获取子模块1633、任务标识信息获取子模块1634、第二请求数据存储子模块1661、第二加密子模块1662、第二索引值存储子模块1663、第一确定单元16331、第一获取单元16332、第二确定单元16333和第二获取单元16334中的至少一个可以至少被部分地实现为硬件电路,例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC),或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现,或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者,第一信息获取模块1510、状态信息获取模块1520、信息存储模块1530、标识信息删除模块1540、状态监听模块1550、第一请求数据获取模块1560、状态信息删除模块1570、任务信息删除模块1580、第一加密子模块1531、第一索引值存储子模块1532和第一请求数据存储子模块1533和标识信息存储子模块1534中的至少一个,或者第二信息获取模块1610、爬取确定模块1620、第二请求数据获取模块1630、爬取执行模块1640、状态信息调整模块1650、第二信息存储模块1660、请求数据删除模块1670、获取次数确定模块1680、获取次数调整模块1690、索引值队列确定子模块1631、索引值获取子模块1632、请求数据获取子模块1633、任务标识信息获取子模块1634、第二请求数据存储子模块1661、第二加密子模块1662、第二索引值存储子模块1663、第一确定单元16331、第一获取单元16332、第二确定单元16333和第二获取单元16334中的至少一个可以至少被部分地实现为计算机程序模块,当该计算机程序模块被运行时,可以执行相应的功能。
图17示意性示出了根据本公开实施例的适于实现任务调度方法或计算节点执行任务的方法的电子设备的结构框图。图17示出的电子设备仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图17所示,根据本公开实施例的电子设备1700包括处理器1701,其可以根据存储在只读存储器(ROM)1702中的程序或者从存储部分1708加载到随机访问存储器(RAM)1703中的程序而执行各种适当的动作和处理。处理器1701例如可以包括通用微处理器(例如CPU)、指令集处理器和/或相关芯片组和/或专用微处理器(例如,专用集成电路(ASIC)),等等。处理器1701还可以包括用于缓存用途的板载存储器。处理器1701可以包括用于执行根据本公开实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。
在RAM 1703中,存储有电子设备1700操作所需的各种程序和数据。处理器1701、ROM 1702以及RAM 1703通过总线1704彼此相连。处理器1701通过执行ROM 1702和/或RAM1703中的程序来执行根据本公开实施例的方法流程的各种操作。需要注意,所述程序也可以存储在除ROM 1702和RAM 1703以外的一个或多个存储器中。处理器1701也可以通过执行存储在所述一个或多个存储器中的程序来执行根据本公开实施例的方法流程的各种操作。
根据本公开的实施例,电子设备1700还可以包括输入/输出(I/O)接口1705,输入/输出(I/O)接口1705也连接至总线1704。电子设备1700还可以包括连接至I/O接口1705的以下部件中的一项或多项:包括键盘、鼠标等的输入部分1706;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分1707;包括硬盘等的存储部分1708;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分1709。通信部分1709经由诸如因特网的网络执行通信处理。驱动器1710也根据需要连接至I/O接口1705。可拆卸介质1711,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器1710上,以便于从其上读出的计算机程序根据需要被安装入存储部分1708。
根据本公开的实施例,根据本公开实施例的方法流程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读存储介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分1709从网络上被下载和安装,和/或从可拆卸介质1711被安装。在该计算机程序被处理器1701执行时,执行本公开实施例的系统中限定的上述功能。根据本公开的实施例,上文描述的系统、设备、装置、模块、单元等可以通过计算机程序模块来实现。
本公开还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中描述的设备/装置/系统中所包含的;也可以是单独存在,而未装配入该设备/装置/系统中。上述计算机可读存储介质承载有一个或者多个程序,当上述一个或者多个程序被执行时,实现根据本公开实施例的方法。
根据本公开的实施例,计算机可读存储介质可以是非易失性的计算机可读存储介质,例如可以包括但不限于:便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。例如,根据本公开的实施例,计算机可读存储介质可以包括上文描述的ROM 1702和/或RAM 1703和/或ROM 1702和RAM 1703以外的一个或多个存储器。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
本领域技术人员可以理解,本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合或/或结合,即使这样的组合或结合没有明确记载于本公开中。特别地,在不脱离本公开精神和教导的情况下,本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合。所有这些组合和/或结合均落入本公开的范围。
以上对本公开的实施例进行了描述。但是,这些实施例仅仅是为了说明的目的,而并非为了限制本公开的范围。尽管在以上分别描述了各实施例,但是这并不意味着各个实施例中的措施不能有利地结合使用。本公开的范围由所附权利要求及其等同物限定。不脱离本公开的范围,本领域技术人员可以做出多种替代和修改,这些替代和修改都应落在本公开的范围之内。

Claims (16)

1.一种任务调度方法,包括:
获取至少一个待执行任务的任务信息,所述任务信息包括针对页面的至少一个请求数据;
获取为所述至少一个待执行任务分配的状态信息,所述状态信息用于表征待执行任务是否执行完成;以及
根据预定规则,将所述至少一个待执行任务的任务信息和状态信息存入预定空间。
2.根据权利要求1所述的方法,其中:
所述状态信息包括表征待执行任务是否执行完成的待消费量;
为所述至少一个待执行任务中每个待执行任务分配的状态信息包括的待消费量的值为预定值,所述预定值为正整数。
3.根据权利要求1所述的方法,其中,根据预定规则,将所述至少一个待执行任务的任务信息存入预定空间包括:
根据加密规则,将第一待执行任务的第一任务信息包括的至少一个第一请求数据加密,生成至少一个第一索引值,所述至少一个第一索引值构成与所述第一任务信息对应的第一索引值队列;
将所述第一索引值队列存入所述预定空间的第一子空间;以及
将所述至少一个第一请求数据存入所述预设空间的第二子空间,形成与所述至少一个第一索引值一一对应的至少一个第一请求数据集合,
其中,每个第一请求数据集合包括一个或多个第一请求数据,所述至少一个第一请求数据集合的并集包括所述至少一个第一请求数据,且不同的第一请求数据集合的交集为空,所述第一待执行任务是所述至少一个待执行任务中的任意一个待执行任务。
4.根据权利要求3所述的方法,其中,所述任务信息还包括任务标识信息:
所述根据预定规则,将所述至少一个待执行任务的任务信息存入预定空间还包括:将所述至少一个待执行任务中每个待执行任务的任务信息包括的任务标识信息存入所述预设空间的第三子空间;
所述方法还包括:
响应于停止执行第二待执行任务的操作,删除所述第三子空间中存储的所述第二待执行任务的第二任务信息包括的任务标识信息;并且/或者
响应于恢复执行第二待执行任务的操作,将所述第二待执行任务的第二任务信息包括的任务标识信息重新存入所述第三子空间,
其中,所述第二待执行任务是所述至少一个待执行任务中的任意一个待执行任务。
5.根据权利要求3所述的方法,还包括:
监听计算节点的实时状态;
在计算节点的实时状态表征所述计算节点宕机的情况下,获取所述预定空间的第四子空间中存储的与所述计算节点对应的第二请求数据;
根据所述加密规则,对所述第二请求数据加密,生成与所述第二请求数据对应的第二索引值;
将所述第二索引值存入与所述第二请求数据所属的任务信息对应的索引值队列中;以及
将所述第二请求数据存入所述第二子空间,形成与所述第二索引值对应的第二请求数据集合,
其中,所述第四子空间是在所述计算节点从所述第二子空间获取到所述第二请求数据的情况下,存入所述第二请求数据的。
6.根据权利要求1所述的方法,还包括:
响应于计算节点删除所述预定空间内第三待执行任务的任务信息的操作,删除所述预定空间中存储的所述第三待执行任务的状态信息;并且/或者
响应于中止执行第四待执行任务的操作,删除所述预定空间内所述第四待执行任务的任务信息和状态信息,
其中,所述第三待执行任务与所述第四待执行任务均为所述至少一个待执行任务中的任意一个待执行任务,所述第三待执行任务与所述第四待执行任务不同。
7.一种计算节点执行任务的方法,包括:与其他计算节点并行循环的执行以下操作:
从预定空间中获取至少一个待执行任务的任务信息和状态信息,所述任务信息包括针对页面的至少一个请求数据,所述状态信息能够表征待执行任务是否执行完成;
根据获取的所述至少一个待执行任务中第一待执行任务的第一状态信息,确定是否爬取至少一个第一请求数据针对的页面的数据,所述至少一个第一请求数据属于所述第一待执行任务的第一任务信息;
在确定爬取所述至少一个第一请求数据针对的页面的数据的情况下,获取所述至少一个第一请求数据中的一个或多个第一请求数据;以及
爬取所述一个或多个第一请求数据针对的页面的数据。
8.根据权利要求7所述的方法,其中,所述状态信息包括表征待执行任务是否执行完成的待消费量:
所述根据获取的所述至少一个待执行任务中第一待执行任务的第一状态信息,确定是否爬取至少一个第一请求数据针对的页面的数据包括:在所述第一待执行任务的第一状态信息包括的第一待消费量的值为正整数的情况下,确定爬取所述至少一个第一请求数据针对的页面的数据,
所述方法还包括:
在爬取得到的所述一个或多个第一请求数据针对的页面的数据中,包括m个针对不同的次级页面的第一次级请求数据的情况下,将所述第一待消费量的值加m后减1,所述m个第一次级请求数据与所述一个或多个第一请求数据对应;或者
在爬取得到的所述一个或多个第一请求数据针对的页面的数据中不包括针对次级页面的第一次级请求数据的情况下,将所述第一待消费量的值减1,
其中,所述第一待消费量的初始值为预定值,所述预定值为正整数,所述m为正整数。
9.根据权利要求8所述的方法,其中:
所述预定空间包括:
第一子空间,存储有与所述第一任务信息对应的第一索引值队列,所述第一索引值队列包括至少一个第一索引值,所述至少一个第一索引值是根据加密规则,对所述第一任务信息包括的至少一个第一请求数据加密得到的;
第二子空间,存储有与所述至少一个第一索引值一一对应的至少一个第一请求数据集合,每个第一请求数据集合包括一个或多个第一请求数据,所述至少一个第一请求数据集合的并集包括所述至少一个第一请求数据,且不同的第一请求数据集合的交集为空;
所述获取所述至少一个第一请求数据中的一个或多个第一请求数据包括:
确定所述第一子空间中与所述第一任务信息对应的第一索引值队列;
从所述第一索引值队列中获取一个第一索引值;以及
根据所述一个第一索引值,从所述第二子空间获取所述一个或多个第一请求数据。
10.根据权利要求9所述的方法,其中:
所述任务信息还包括任务标识信息,所述预定空间还包括第三子空间,存储有所述至少一个待执行任务中每个待执行任务的任务信息包括的任务标识信息;
所述获取所述至少一个第一请求数据中的一个或多个第一请求数据还包括:从所述第三子空间中获取所述第一任务信息包括的第一任务标识信息,所述第一索引值队列根据所述第一任务标识信息确定。
11.根据权利要求10所述的方法,其中,所述状态信息还包括总消费次数和消费失败次数,每个请求数据各自具有标签,所述标签指示了所述每个请求数据的获取次数,所述方法还包括:
在未爬取得到所述一个或多个第一请求数据针对的页面的数据的情况下:
将所述总消费次数的值与所述消费失败次数的值均加1;以及
确定所述一个或多个第一请求数据的标签指示的获取次数是否满足预定条件;
在所述一个或多个第一请求数据的标签指示的获取次数满足预定条件的情况下:
根据所述加密规则,对所述一个或多个第一请求数据加密,得到第三索引值;
将所述第三索引值放入所述第一任务信息的第一索引值队列中;
将所述一个或多个第一请求数据存入所述第二子空间,形成与所述第三索引值对应的第三请求数据集合,以使所述计算节点或其他计算节点重新获取;以及
将所述一个或多个第一请求数据的标签指示的获取次数的值加1;
在所述一个或多个第一请求数据的标签指示的获取次数不满足预定条件的情况下,将所述第一待消费量的值减1;并且/或者
在爬取得到所述一个或多个第一请求数据针对的页面的数据的情况下,将所述总消费次数的值加1,
其中,所述获取次数的值、所述总消费次数的值和所述消费失败次数的值均为初始值为0的自然数。
12.根据权利要求9所述的方法,还包括:
在爬取得到所述一个或多个第一请求数据针对的页面的数据中包括第一次级请求数据的情况下:
根据所述加密规则,对所述第一次级请求数据加密,得到与所述第一次级请求数据对应的第一次级索引值;以及
将所述第一次级索引值存入所述第一子空间中所述第一索引值的次级索引值队列中,并将所述第一次级请求数据存入所述第二子空间中,形成与所述第一次级索引值对应的第一次级请求数据集合;以及
根据所述一个第一索引值,从所述第二子空间获取所述一个或多个第一请求数据包括:确定所述一个第一索引值的次级索引值队列中是否存在第一次级索引值:
在存在第一次级索引值的情况下,获取一个第一次级索引值,从所述第二子空间获取与所述一个第一次级索引值对应的第一次级请求数据集合中的一个或多个次级请求数据;
在不存在第一次级索引值的情况下,从所述第二子空间获取与所述一个第一索引值对应的第一请求数据集合中的一个或多个请求数据。
13.根据权利要求9所述的方法,其中,所述预定空间还包括第四子空间,所述方法还包括:
在获取到所述一个或多个第一请求数据的情况下,删除所述第二子空间中存储的所述一个或多个第一请求数据,并将所述一个或多个第一请求数据存入所述第四子空间;并且/或者
在爬取得到所述一个或多个第一请求数据针对的页面的数据之后,删除所述第四子空间中存储的所述一个或多个第一请求数据。
14.根据权利要求9所述的方法,其中,所述任务信息还包括优先级信息,根据所述一个第一索引值,从所述第二子空间获取所述一个或多个第一请求数据:
根据所述第一待执行任务的第一任务信息包括的优先级信息,确定获取的第一请求数据的个数为n,n为自然数;以及
在所述一个第一索引值对应的第一请求数据集合包括的一个或多个第一请求数据的个数大于等于n的情况下,获取对应的第一请求集合包括的所述一个或多个第一请求数据中的n个第一请求数据;
在所述一个第一索引值对应的第一请求数据集合包括的一个或多个第一请求数据的个数小于n的情况下,获取对应的第一请求集合包括的所述一个或多个第一请求数据。
15.一种任务调度装置,包括:
第一信息获取模块,用于获取至少一个待执行任务的任务信息,所述任务信息包括针对页面的至少一个请求数据;
状态信息获取模块,用于获取为所述至少一个待执行任务设定的状态信息,所述状态信息包括表征待执行任务是否执行完成的待消费量;以及
信息存储模块,用于根据预定规则,将所述至少一个待执行任务的任务信息和状态信息存入预定空间。
16.一种用于执行任务的装置,设置于计算节点中,用于使所述计算节点与其他计算节点并行循环的执行爬虫任务,所述装置包括:
第二信息获取模块,用于从预定空间中获取至少一个待执行任务的任务信息和状态信息,每个任务信息包括针对页面的至少一个请求数据,所述状态信息包括表征待执行任务是否执行完成的待消费量;
爬取确定模块,用于根据获取的所述至少一个待执行任务中第一待执行任务的第一状态信息,确定是否爬取至少一个第一请求数据针对的页面的数据,所述至少一个第一请求数据属于所述第一待执行任务的第一任务信息;
第二请求数据获取模块,用于在确定爬取所述至少一个第一请求数据针对的页面的数据的情况下,获取所述至少一个第一请求数据中的一个或多个第一请求数据;以及
爬取执行模块,用于爬取所述一个或多个第一请求数据针对的页面的数据。
CN201910565503.6A 2019-06-26 2019-06-26 任务调度方法和装置及计算节点执行任务的方法和装置 Active CN110262888B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910565503.6A CN110262888B (zh) 2019-06-26 2019-06-26 任务调度方法和装置及计算节点执行任务的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910565503.6A CN110262888B (zh) 2019-06-26 2019-06-26 任务调度方法和装置及计算节点执行任务的方法和装置

Publications (2)

Publication Number Publication Date
CN110262888A true CN110262888A (zh) 2019-09-20
CN110262888B CN110262888B (zh) 2020-11-20

Family

ID=67922079

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910565503.6A Active CN110262888B (zh) 2019-06-26 2019-06-26 任务调度方法和装置及计算节点执行任务的方法和装置

Country Status (1)

Country Link
CN (1) CN110262888B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110929126A (zh) * 2019-12-02 2020-03-27 杭州安恒信息技术股份有限公司 一种基于远程过程调用实现的分布式爬虫调度方法
CN111245909A (zh) * 2019-12-31 2020-06-05 深圳云天励飞技术有限公司 分布式动态调度方法、装置、电子设备及存储介质
CN118035324A (zh) * 2024-04-15 2024-05-14 航天宏图信息技术股份有限公司 数据处理查询方法、装置、服务器及介质
CN118035324B (zh) * 2024-04-15 2024-06-28 航天宏图信息技术股份有限公司 数据处理查询方法、装置、服务器及介质

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070174440A1 (en) * 2006-01-24 2007-07-26 Brier John J Jr Systems and methods for data mining and interactive presentation of same
US20070208713A1 (en) * 2006-03-01 2007-09-06 Oracle International Corporation Auto Generation of Suggested Links in a Search System
CN101069170A (zh) * 2004-09-10 2007-11-07 卡威姆网络有限公司 数据包队列、调度和排序
CN101848116A (zh) * 2010-04-21 2010-09-29 中国海洋大学 一种简单快捷自动的Web服务器压力测试方法
CN105677918A (zh) * 2016-03-03 2016-06-15 浪潮软件股份有限公司 一种基于Kafka和Quartz的分布式爬虫架构及其实现方法
CN107391775A (zh) * 2017-08-28 2017-11-24 湖北省楚天云有限公司 一种通用的网络爬虫模型实现方法及系统
CN107657053A (zh) * 2017-10-17 2018-02-02 山东浪潮云服务信息科技有限公司 一种爬虫实现方法及装置
CN108459889A (zh) * 2018-01-23 2018-08-28 腾讯科技(深圳)有限公司 任务执行方法和装置、存储介质以及电子装置
CN109033195A (zh) * 2018-06-28 2018-12-18 上海盛付通电子支付服务有限公司 网页信息的获取方法、获取设备及计算机可读介质
CN109542595A (zh) * 2017-09-21 2019-03-29 阿里巴巴集团控股有限公司 一种数据采集方法、装置和系统

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101069170A (zh) * 2004-09-10 2007-11-07 卡威姆网络有限公司 数据包队列、调度和排序
US20070174440A1 (en) * 2006-01-24 2007-07-26 Brier John J Jr Systems and methods for data mining and interactive presentation of same
US20070208713A1 (en) * 2006-03-01 2007-09-06 Oracle International Corporation Auto Generation of Suggested Links in a Search System
CN101848116A (zh) * 2010-04-21 2010-09-29 中国海洋大学 一种简单快捷自动的Web服务器压力测试方法
CN105677918A (zh) * 2016-03-03 2016-06-15 浪潮软件股份有限公司 一种基于Kafka和Quartz的分布式爬虫架构及其实现方法
CN107391775A (zh) * 2017-08-28 2017-11-24 湖北省楚天云有限公司 一种通用的网络爬虫模型实现方法及系统
CN109542595A (zh) * 2017-09-21 2019-03-29 阿里巴巴集团控股有限公司 一种数据采集方法、装置和系统
CN107657053A (zh) * 2017-10-17 2018-02-02 山东浪潮云服务信息科技有限公司 一种爬虫实现方法及装置
CN108459889A (zh) * 2018-01-23 2018-08-28 腾讯科技(深圳)有限公司 任务执行方法和装置、存储介质以及电子装置
CN109033195A (zh) * 2018-06-28 2018-12-18 上海盛付通电子支付服务有限公司 网页信息的获取方法、获取设备及计算机可读介质

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110929126A (zh) * 2019-12-02 2020-03-27 杭州安恒信息技术股份有限公司 一种基于远程过程调用实现的分布式爬虫调度方法
CN111245909A (zh) * 2019-12-31 2020-06-05 深圳云天励飞技术有限公司 分布式动态调度方法、装置、电子设备及存储介质
CN111245909B (zh) * 2019-12-31 2023-04-07 深圳云天励飞技术有限公司 分布式动态调度方法、装置、电子设备及存储介质
CN118035324A (zh) * 2024-04-15 2024-05-14 航天宏图信息技术股份有限公司 数据处理查询方法、装置、服务器及介质
CN118035324B (zh) * 2024-04-15 2024-06-28 航天宏图信息技术股份有限公司 数据处理查询方法、装置、服务器及介质

Also Published As

Publication number Publication date
CN110262888B (zh) 2020-11-20

Similar Documents

Publication Publication Date Title
US12013852B1 (en) Unified data processing across streaming and indexed data sets
US11474673B1 (en) Handling modifications in programming of an iterative message processing system
US11614923B2 (en) Dual textual/graphical programming interfaces for streaming data processing pipelines
US11886440B1 (en) Guided creation interface for streaming data processing pipelines
US10776441B1 (en) Visual programming for iterative publish-subscribe message processing system
US10909096B2 (en) Automatic table cleanup for relational databases
CN105706086B (zh) 用于获取、存储和消费大规模数据流的管理服务
US11663176B2 (en) Data field extraction model training for a data intake and query system
US8555018B1 (en) Techniques for storing data
US20220036177A1 (en) Data field extraction by a data intake and query system
CN106980492B (zh) 用于计算的装置、系统、方法、机器可读存储介质和设备
US11704490B2 (en) Log sourcetype inference model training for a data intake and query system
CN108885568A (zh) 在按需代码执行环境处处理先已存在的数据集
US20220121708A1 (en) Dynamic data enrichment
CN107391280A (zh) 一种小文件的接收和存储方法及装置
CN102752387B (zh) 数据存储处理系统和数据存储处理方法
US10360394B2 (en) System and method for creating, tracking, and maintaining big data use cases
CN107291750A (zh) 一种数据迁移方法和装置
CN110262888A (zh) 任务调度方法和装置及计算节点执行任务的方法和装置
CN109408286A (zh) 数据处理方法、装置、系统、计算机可读存储介质
US11275795B2 (en) System and method for in-place record content management
CN107357630A (zh) 一种实现虚拟机同步的方法、装置和存储介质
CN108241724A (zh) 一种元数据管理方法和装置
CN108255628A (zh) 一种数据处理方法及装置
CN110019310A (zh) 数据处理方法及系统、计算机系统、计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP01 Change in the name or title of a patent holder

Address after: Room 221, 2 / F, block C, 18 Kechuang 11th Street, Daxing District, Beijing, 100176

Patentee after: Jingdong Technology Holding Co.,Ltd.

Address before: Room 221, 2 / F, block C, 18 Kechuang 11th Street, Daxing District, Beijing, 100176

Patentee before: JINGDONG DIGITAL TECHNOLOGY HOLDINGS Co.,Ltd.

CP01 Change in the name or title of a patent holder