CN106776650A - 数据抓取方法和装置 - Google Patents

数据抓取方法和装置 Download PDF

Info

Publication number
CN106776650A
CN106776650A CN201510827515.3A CN201510827515A CN106776650A CN 106776650 A CN106776650 A CN 106776650A CN 201510827515 A CN201510827515 A CN 201510827515A CN 106776650 A CN106776650 A CN 106776650A
Authority
CN
China
Prior art keywords
node
crawl
data
data grabber
distribution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510827515.3A
Other languages
English (en)
Inventor
颜勇
于晓明
杨建武
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University
Peking University Founder Group Co Ltd
Beijing Founder Electronics Co Ltd
Original Assignee
Peking University
Peking University Founder Group Co Ltd
Beijing Founder Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University, Peking University Founder Group Co Ltd, Beijing Founder Electronics Co Ltd filed Critical Peking University
Priority to CN201510827515.3A priority Critical patent/CN106776650A/zh
Publication of CN106776650A publication Critical patent/CN106776650A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9566URL specific, e.g. using aliases, detecting broken or misspelled links
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)
  • Computer And Data Communications (AREA)

Abstract

本发明提供一种数据抓取方法和装置,其中,该方法包括:从预先设定的正常运行的各抓取结点中确定一个分发结点;通过分发节点接收各发送终端发送的各数据抓取请求,数据抓取请求中包括url、发送端地址;通过分发结点将各数据抓取请求分发给各抓取结点;通过各抓取结点根据url抓取数据抓取请求所请求的数据,并通过各抓取结点将数据发送给与发送端地址对应的发送终端。从各抓取结点中确定分发结点,不需要专门设置一个接收并分发各数据抓取请求的管理结点,从而一旦该分发结点无法正常运行,还可以从各抓取结点中确定另外一个分发结点,数据抓取的过程依然可以正常运行,不影响数据抓取的过程;保证了数据抓取工作的正常运行。

Description

数据抓取方法和装置
技术领域
本发明涉及互联网技术领域,尤其涉及一种数据抓取方法和装置。
背景技术
随着互联网技术的不断发展,通过搜索引擎搜索数据的数据获取方式已经成成为数据抓取的重要过程。
现有技术中,数据抓取平台中设置了管理结点和抓取结点,管理结点和抓取结点可以是虚拟的模块,也可以是终端设备。发送终端在搜索引擎上进行设置,从而发送出数据抓取请求;数据抓取平台的管理结点接收到各发送终端发出的各数据抓取请求,然后管理结点再将这些数据抓取请求发送给各个抓取结点,各抓取结点在抓取了数据之后,将所有的数据通过管理结点返回给各发送终端。
然而现有技术中,数据抓取平台上设置了一个专门接收并分发各数据抓取请求的管理结点,所有的数据抓取请求只能通过这一个管理结点而下发给各个抓取结点,一旦管理结点无法正常运行,那么所有的数据抓取请求便无法下发给各个抓取结点,导致数据抓取无法进行,进而发送终端无法接收到需要抓取的数据。
发明内容
本发明提供一种数据抓取方法和装置,用以解决现有技术中所有的数据抓取请求只能通过这一个管理结点而下发给各个抓取结点,一旦管理结点无法正常运行,那么所有的数据抓取请求便无法下发给各个抓取结点,导致数据抓取无法进行,进而发送终端无法接收到需要抓取的数据的问题。
本发明的一方面是提供一种数据抓取方法,包括:
从预先设定的正常运行的各抓取结点中确定一个分发结点;
通过所述分发节点接收各发送终端发送的各数据抓取请求,所述数据抓取请求中包括统一资源定位符(Uniform Resoure Locator,简称url)、发送端地址;
通过所述分发结点将所述各数据抓取请求分发给各所述抓取结点;
通过各抓取结点根据所述url抓取所述数据抓取请求所请求的数据,并通过各抓取结点将所述数据发送给与所述发送端地址对应的发送终端。
如上所述的方法中,所述从预先设定的正常运行的各抓取结点中确定一个分发结点,包括:
确定各抓取结点中正常运行的抓取结点;
从正常运行的抓取结点中,随机的确定一个所述分发结点。
如上所述的方法中,所述数据抓取请求中还包括:抓取时间;
相应的,所述通过所述分发结点将所述各数据抓取请求分发给各所述抓取结点,包括:
确定所述抓取结点的负载信息,所述负载信息表征所述抓取结点当前执行的数据抓取请求的个数;
根据所述负载信息,确定所述抓取结点是否满足所述抓取时间;
若满足,则通过所述分发结点将所述数据抓取请求发送给所述抓取结点。
如上所述的方法中,所述通过所述分发结点将所述各数据抓取请求分发给各所述抓取结点,包括:
通过所述分发结点将所述各数据抓取请求,均匀的插入到各所述抓取结点的数据抓取请求队列中。
如上所述的方法中,所述通过各抓取结点根据所述url抓取所述数据抓取请求所请求的数据,包括:
提取所述url中的域名;
通过各抓取结点根据所述域名抓取所述数据抓取请求所请求的数据。
本发明的另一方面是提供一种数据抓取装置,包括:
确定模块,用于从预先设定的正常运行的各抓取结点中确定一个分发结点;
接收模块,用于通过所述分发节点接收各发送终端发送的各数据抓取请求,所述数据抓取请求中包括url、发送端地址;
分发模块,用于通过所述分发结点将所述各数据抓取请求分发给各所述抓取结点;
发送模块,用于通过各抓取结点根据所述url抓取所述数据抓取请求所请求的数据,并通过各抓取结点将所述数据发送给与所述发送端地址对应的发送终端。
如上所述的装置中,所述确定模块,包括:
确定子模块,用于确定各抓取结点中正常运行的抓取结点;
选择子模块,用于从正常运行的抓取结点中,随机的确定一个所述分发结点。
如上所述的装置中,所述数据抓取请求中还包括:抓取时间;
相应的,所述分发模块,具体用于:
确定所述抓取结点的负载信息,所述负载信息表征所述抓取结点当前执行的数据抓取请求的个数;
根据所述负载信息,确定所述抓取结点是否满足所述抓取时间;
若满足,则通过所述分发结点将所述数据抓取请求发送给所述抓取结点。
如上所述的装置中,所述分发模块,具体用于:
通过所述分发结点将所述各数据抓取请求,均匀的插入到各所述抓取结点的数据抓取请求队列中。
如上所述的装置中,所述发送模块在用于通过各抓取结点根据所述url抓取所述数据抓取请求所请求的数据时,具体用于:
提取所述url中的域名;
通过各抓取结点根据所述域名抓取所述数据抓取请求所请求的数据。
本发明从预先设定的正常运行的各抓取结点中确定一个分发结点;通过分发节点接收各发送终端发送的各数据抓取请求,数据抓取请求中包括url、发送端地址;通过分发结点将各数据抓取请求分发给各抓取结点;通过各抓取结点根据url抓取数据抓取请求所请求的数据,并通过各抓取结点将数据发送给与发送端地址对应的发送终端。从各抓取结点中确定分发结点,该分发结点用于接收各发送终端发送的各数据抓取请求,并将各数据抓取请求分发给各抓取结点,不需要专门设置一个接收并分发各数据抓取请求的管理结点,从而一旦该分发结点无法正常运行,还可以从各抓取结点中确定另外一个分发结点,数据抓取的过程依然可以正常运行,不影响数据抓取的过程;保证了数据抓取工作的正常运行。
附图说明
图1为本发明实施例一提供的数据抓取方法的流程图;
图2为本发明实施例二提供的数据抓取方法的流程图;
图3为本发明实施例三提供的数据抓取装置的结构示意图;
图4为本发明实施例四提供的数据抓取装置的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明实施例一提供的数据抓取方法的流程图,如图1所示,本实施例的方法包括:
步骤101、从预先设定的正常运行的各抓取结点中确定一个分发结点。
在本实施例中,具体的,从抓取数据的系统中可以正常运行的各抓取结点中,确定出一个分发节点,这个分发节点是各抓取结点中的一个,也可以执行数据抓取的工作。
步骤102、通过分发节点接收各发送终端发送的各数据抓取请求,数据抓取请求中包括url、发送端地址。
在本实施例中,具体的,各发送终端发起数据抓取请求,步骤101中确定的分发节点接收各发送终端发送的各数据抓取请求。在每个数据抓取请求中包括了url和发送端地址。
步骤103、通过分发结点将各数据抓取请求分发给各抓取结点。
在本实施例中,具体的,分发节点将各个数据抓取请求分发给各抓取结点,并且分发节点也会将部分数据抓取请求发给自身。
步骤104、通过各抓取结点根据url抓取数据抓取请求所请求的数据,并通过各抓取结点将数据发送给与发送端地址对应的发送终端。
在本实施例中,具体的,各抓取结点中设置了多个抓取队列,各抓取队列按照时间进行排序;各抓取结点接收到数据抓取请求之后,根据数据抓取请求所要求的时间将数据抓取请求插入到各抓取队列中,或者,各抓取结点按照请求的解析情况将数据抓取请求插入到各抓取队列中。例如,抓取任务队列设置了三级队列,第一级为外围队列,抓取结点在接收到数据抓取请求之后,马上将其插入到外围队列中;第二级称之为host队列,这级队列存储的都是dns还未解出的数据抓取请求;第三级队列称之为serv队列,这级队列存储的是dns解出来后的数据抓取请求。
各抓取结点根据url抓取数据抓取请求所请求的数据。各抓取结点中的各抓取队列只能同时执行一个各自存储的数据抓取请求,即每个抓取结点中的各抓取队列中的任务配额为1。每个抓取结点中的一个抓取队列确定当前需要执行的数据抓取请求,与上次已经执行的数据抓取请求之间的时间间隔,是否满足预设时间间隔,若满足,则该抓取队列根据当前需要执行的数据抓取请求去抓取数据;若不满足,则待预设时间间隔达到时,该抓取队列再根据当前需要执行的数据抓取请求去抓取数据。
各抓取结点将抓取到的数据,发送给与各发送端地址对应的各发送终端。
本实施例通过从预先设定的正常运行的各抓取结点中确定一个分发结点;通过分发节点接收各发送终端发送的各数据抓取请求,并通过分发结点将各数据抓取请求分发给各抓取结点,最后各抓取结点抓取数据并将数据发送给各发送终端。本实施例从各抓取结点中确定分发结点,该分发结点用于接收各发送终端发送的各数据抓取请求,并将各数据抓取请求分发给各抓取结点,不需要专门设置一个接收并分发各数据抓取请求的管理结点,从而一旦该分发结点无法正常运行,还可以从各抓取结点中确定另外一个分发结点,数据抓取的过程依然可以正常运行,不影响数据抓取的过程;保证了数据抓取工作的正常运行。
图2为本发明实施例二提供的数据抓取方法的流程图,在实施例一的基础上,如图2所示,本实施例的方法中,步骤101,包括:
步骤1011、确定各抓取结点中正常运行的抓取结点。
在本实施例中,具体的,从抓取系统中确定出各个抓取结点中可以正常运行的抓取结点,抓取结点可以是虚拟的模块,也可以是终端。
步骤1012、从正常运行的抓取结点中,随机的确定一个分发结点。
在本实施例中,具体的,根据确定出的正常运行的抓取结点,从其中随机的选取一个抓取结点作为分发结点。
本实施例通过从正常运行的各抓取结点中随机的选取一个抓取结点作为分发结点,该分发结点用于接收各发送终端发送的各数据抓取请求,并将各数据抓取请求分发给各抓取结点,从而不需要专门设置一个接收并分发各数据抓取请求的管理结点,一旦该分发结点无法正常运行,还可以从各抓取结点中确定另外一个分发结点,数据抓取的过程依然可以正常运行,不影响数据抓取的过程;保证了数据抓取工作的正常运行。
进一步的,在上述实施例的基础上,步骤102中的数据抓取请求中还包括:抓取时间;
相应的,步骤103的具体实施方式,包括:
确定抓取结点的负载信息,负载信息表征抓取结点当前执行的数据抓取请求的个数;
根据负载信息,确定抓取结点是否满足抓取时间;
若满足,则通过分发结点将数据抓取请求发送给抓取结点。
在本实施方式中,具体的,步骤102中分发节点接收的各发送终端发送的各数据抓取请求中,数据抓取请求中还包括抓取时间,抓取时间表征了该数据抓取请求所要求的数据抓取的时间。然后确定抓取结点的负载信息,负载信息表征抓取结点当前执行的数据抓取请求的个数;根据抓取时间和各负载信息,确定各抓取结点是否满足抓取时间,当某一个抓取结点可以满足抓取时间时,分发结点将该数据抓取请求发送给该抓取结点。
举例来说,分发结点采用动态分发的方式将各数据抓取请求分发给各抓取结点;首先根据数据抓取请求中的域名,确定出目的抓取结点,然后根据数据抓取请求中的抓取时间以及各目的抓取结点的负载信息,动态的计算各目的抓取结点能否满足数据抓取请求的抓取时间,若满足,则将数据抓取请求分发给能满足要求的目的抓取结点。其中,动态分发的方式可以按照抓取结点的扩散的方式来将数据抓取请求进行分发,首先可以将各抓取结点按照预设规则进行排序,逐一计算抓取结点能否满足数据抓取请求的抓取时间,若不能满足,则将该数据抓取请求分发给相邻的2个抓取结点进行计算,若依然都不能满足抓取时间,则将该数据抓取请求分发给上述2个抓取结点相邻的4个抓取结点进行计算,以此类推,从而完成一种逐步扩散;可知,抓取结点的数据按照1,2,4,…,2^n的方式逐步扩散。
本实施方式通过根据各抓取结点的负载信息,确定各抓取结点是否满足数据抓取请求所要求的抓取时间,从而可以保证数据可以及时的被抓取,保证了发送终端的数据抓取的要求。
进一步的,在上述实施例的基础上,步骤103的另一种具体实施方式,包括:
通过分发结点将各数据抓取请求,均匀的插入到各抓取结点的数据抓取请求队列中。
在本实施方式中,具体的,各分发结点将各数据抓取请求,均匀的插入到各抓取结点的数据抓取请求队列中。举例来说,可以采用固定分发的方式,根据数据抓取请求的域名、地址名等信息,确定目的抓取结点,将数据抓取请求发送给目的抓取结点。
进一步的,在上述实施例的基础上,步骤104中在通过各抓取结点根据url抓取数据抓取请求所请求的数据时,具体包括:
提取url中的域名;
通过各抓取结点根据域名抓取数据抓取请求所请求的数据。
在本实施方式中,具体的,提取出url中域名,各抓取结点根据域名进行数据的抓取,根据域名抓取数据抓取请求所请求的数据。
图3为本发明实施例三提供的数据抓取装置的结构示意图,如图3所示,本实施例提供的数据抓取装置,包括:
确定模块31,用于从预先设定的正常运行的各抓取结点中确定一个分发结点;
接收模块32,用于通过分发节点接收各发送终端发送的各数据抓取请求,数据抓取请求中包括url、发送端地址;
分发模块33,用于通过分发结点将各数据抓取请求分发给各抓取结点;
发送模块34,用于通过各抓取结点根据url抓取数据抓取请求所请求的数据,并通过各抓取结点将数据发送给与发送端地址对应的发送终端。
本实施例的数据抓取装置可执行本发明实施例一提供的数据抓取方法,其实现原理相类似,此处不再赘述。
本实施例通过从预先设定的正常运行的各抓取结点中确定一个分发结点;通过分发节点接收各发送终端发送的各数据抓取请求,并通过分发结点将各数据抓取请求分发给各抓取结点,最后各抓取结点抓取数据并将数据发送给各发送终端。本实施例从各抓取结点中确定分发结点,该分发结点用于接收各发送终端发送的各数据抓取请求,并将各数据抓取请求分发给各抓取结点,不需要专门设置一个接收并分发各数据抓取请求的管理结点,从而一旦该分发结点无法正常运行,还可以从各抓取结点中确定另外一个分发结点,数据抓取的过程依然可以正常运行,不影响数据抓取的过程;保证了数据抓取工作的正常运行。
图4为本发明实施例四提供的数据抓取装置的结构示意图,在实施例三的基础上,如图4所示,本实施例提供的数据抓取装置中,确定模块31,包括:
确定子模块311,用于确定各抓取结点中正常运行的抓取结点;
选择子模块312,用于从正常运行的抓取结点中,随机的确定一个分发结点。
数据抓取请求中还包括:抓取时间;相应的,分发模块33,具体用于:确定抓取结点的负载信息,负载信息表征抓取结点当前执行的数据抓取请求的个数;根据负载信息,确定抓取结点是否满足抓取时间;若满足,则通过分发结点将数据抓取请求发送给抓取结点。或者,分发模块33,具体用于:通过分发结点将各数据抓取请求,均匀的插入到各抓取结点的数据抓取请求队列中。
发送模块34在用于通过各抓取结点根据url抓取数据抓取请求所请求的数据时,具体用于:
提取url中的域名;
通过各抓取结点根据域名抓取数据抓取请求所请求的数据。
本实施例的数据抓取装置可执行本发明实施例二和上述实施方式中提供的数据抓取方法,其实现原理相类似,此处不再赘述。
本实施例通过从正常运行的各抓取结点中随机的选取一个抓取结点作为分发结点,该分发结点用于接收各发送终端发送的各数据抓取请求,并将各数据抓取请求分发给各抓取结点,从而不需要专门设置一个接收并分发各数据抓取请求的管理结点,一旦该分发结点无法正常运行,还可以从各抓取结点中确定另外一个分发结点,数据抓取的过程依然可以正常运行,不影响数据抓取的过程;保证了数据抓取工作的正常运行;通过根据各抓取结点的负载信息,确定各抓取结点是否满足数据抓取请求所要求的抓取时间,从而可以保证数据可以及时的被抓取,保证了发送终端的数据抓取的要求。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种数据抓取方法,其特征在于,包括:
从预先设定的正常运行的各抓取结点中确定一个分发结点;
通过所述分发节点接收各发送终端发送的各数据抓取请求,所述数据抓取请求中包括统一资源定位符url、发送端地址;
通过所述分发结点将所述各数据抓取请求分发给各所述抓取结点;
通过各抓取结点根据所述url抓取所述数据抓取请求所请求的数据,并通过各抓取结点将所述数据发送给与所述发送端地址对应的发送终端。
2.根据权利要求1所述的方法,其特征在于,所述从预先设定的正常运行的各抓取结点中确定一个分发结点,包括:
确定各抓取结点中正常运行的抓取结点;
从正常运行的抓取结点中,随机的确定一个所述分发结点。
3.根据权利要求1所述的方法,其特征在于,所述数据抓取请求中还包括:抓取时间;
相应的,所述通过所述分发结点将所述各数据抓取请求分发给各所述抓取结点,包括:
确定所述抓取结点的负载信息,所述负载信息表征所述抓取结点当前执行的数据抓取请求的个数;
根据所述负载信息,确定所述抓取结点是否满足所述抓取时间;
若满足,则通过所述分发结点将所述数据抓取请求发送给所述抓取结点。
4.根据权利要求1所述的方法,其特征在于,所述通过所述分发结点将所述各数据抓取请求分发给各所述抓取结点,包括:
通过所述分发结点将所述各数据抓取请求,均匀的插入到各所述抓取结点的数据抓取请求队列中。
5.根据权利要求1-4任一项所述的方法,其特征在于,所述通过各抓取结点根据所述url抓取所述数据抓取请求所请求的数据,包括:
提取所述url中的域名;
通过各抓取结点根据所述域名抓取所述数据抓取请求所请求的数据。
6.一种数据抓取装置,其特征在于,包括:
确定模块,用于从预先设定的正常运行的各抓取结点中确定一个分发结点;
接收模块,用于通过所述分发节点接收各发送终端发送的各数据抓取请求,所述数据抓取请求中包括url、发送端地址;
分发模块,用于通过所述分发结点将所述各数据抓取请求分发给各所述抓取结点;
发送模块,用于通过各抓取结点根据所述url抓取所述数据抓取请求所请求的数据,并通过各抓取结点将所述数据发送给与所述发送端地址对应的发送终端。
7.根据权利要求6所述的装置,其特征在于,所述确定模块,包括:
确定子模块,用于确定各抓取结点中正常运行的抓取结点;
选择子模块,用于从正常运行的抓取结点中,随机的确定一个所述分发结点。
8.根据权利要求6所述的装置,其特征在于,所述数据抓取请求中还包括:抓取时间;
相应的,所述分发模块,具体用于:
确定所述抓取结点的负载信息,所述负载信息表征所述抓取结点当前执行的数据抓取请求的个数;
根据所述负载信息,确定所述抓取结点是否满足所述抓取时间;
若满足,则通过所述分发结点将所述数据抓取请求发送给所述抓取结点。
9.根据权利要求6所述的装置,其特征在于,所述分发模块,具体用于:
通过所述分发结点将所述各数据抓取请求,均匀的插入到各所述抓取结点的数据抓取请求队列中。
10.根据权利要求6-9任一项所述的装置,其特征在于,所述发送模块在用于通过各抓取结点根据所述url抓取所述数据抓取请求所请求的数据时,具体用于:
提取所述url中的域名;
通过各抓取结点根据所述域名抓取所述数据抓取请求所请求的数据。
CN201510827515.3A 2015-11-24 2015-11-24 数据抓取方法和装置 Pending CN106776650A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510827515.3A CN106776650A (zh) 2015-11-24 2015-11-24 数据抓取方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510827515.3A CN106776650A (zh) 2015-11-24 2015-11-24 数据抓取方法和装置

Publications (1)

Publication Number Publication Date
CN106776650A true CN106776650A (zh) 2017-05-31

Family

ID=58963891

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510827515.3A Pending CN106776650A (zh) 2015-11-24 2015-11-24 数据抓取方法和装置

Country Status (1)

Country Link
CN (1) CN106776650A (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102646129A (zh) * 2012-03-09 2012-08-22 武汉大学 一种主题相关的分布式网络爬虫系统
CN103152420A (zh) * 2013-03-11 2013-06-12 汉柏科技有限公司 一种避免Ovirt虚拟管理平台单点失效的方法
CN103312809A (zh) * 2013-06-24 2013-09-18 北京汉柏科技有限公司 云平台中服务的分布式管理方法
CN104866378A (zh) * 2015-05-29 2015-08-26 北京京东尚科信息技术有限公司 一种协调执行任务的系统及方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102646129A (zh) * 2012-03-09 2012-08-22 武汉大学 一种主题相关的分布式网络爬虫系统
CN103152420A (zh) * 2013-03-11 2013-06-12 汉柏科技有限公司 一种避免Ovirt虚拟管理平台单点失效的方法
CN103312809A (zh) * 2013-06-24 2013-09-18 北京汉柏科技有限公司 云平台中服务的分布式管理方法
CN104866378A (zh) * 2015-05-29 2015-08-26 北京京东尚科信息技术有限公司 一种协调执行任务的系统及方法

Similar Documents

Publication Publication Date Title
CN104021034B (zh) 任务处理方法及系统
CN111249744B (zh) 资源加载方法和装置、存储介质及电子装置
CN109818937A (zh) 针对安卓权限的控制方法、装置、及存储介质、电子装置
CN105915650B (zh) 负载均衡方法和装置
CN107239701B (zh) 识别恶意网站的方法及装置
US20190109920A1 (en) Browser resource pre-pulling method, terminal and storage medium
CN105589943B (zh) 搜索结果页面的图片适应性处理的方法、装置和服务器
CN106528262A (zh) 镜像部署方法、装置
CN102834806A (zh) 系统结构管理设备、系统结构管理方法和程序
CN104899049B (zh) 一种文件删除方法及其装置
CN102957622B (zh) 一种数据处理的方法、装置及系统
CN106302595A (zh) 一种对服务器进行健康检查的方法及设备
CN110247857B (zh) 限流方法及装置
CN107666473A (zh) 一种攻击检测的方法及控制器
CN106034113A (zh) 数据处理方法及装置
CN108132973A (zh) Web跳转页面的载入方法及装置、计算机可读存储介质
CN104462158A (zh) 数据抓取方法和数据抓取系统
JP6859518B2 (ja) サーバへの攻撃を防ぐ方法及びデバイス
CN109145053A (zh) 数据处理方法和装置、客户端、服务器
CN102571936A (zh) 数据查找的方法、装置及系统
CN110417741B (zh) 一种过滤安全组的方法和装置
CN106412079B (zh) 请求处理方法及系统
CN110020046A (zh) 一种数据抓取方法及装置
CN110619022A (zh) 基于区块链网络的节点检测方法、装置、设备及存储介质
CN110225102A (zh) 推送信息的方法、设备及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20170531