CN103605764B - 一种网络爬虫系统及网络爬虫多任务执行和调度方法 - Google Patents

一种网络爬虫系统及网络爬虫多任务执行和调度方法 Download PDF

Info

Publication number
CN103605764B
CN103605764B CN201310610659.4A CN201310610659A CN103605764B CN 103605764 B CN103605764 B CN 103605764B CN 201310610659 A CN201310610659 A CN 201310610659A CN 103605764 B CN103605764 B CN 103605764B
Authority
CN
China
Prior art keywords
task
node server
crawls
web crawlers
scheduler
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201310610659.4A
Other languages
English (en)
Other versions
CN103605764A (zh
Inventor
宋轲
刘世才
毛海涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
TCL Corp
Original Assignee
TCL Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by TCL Corp filed Critical TCL Corp
Priority to CN201310610659.4A priority Critical patent/CN103605764B/zh
Publication of CN103605764A publication Critical patent/CN103605764A/zh
Application granted granted Critical
Publication of CN103605764B publication Critical patent/CN103605764B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5083Techniques for rebalancing the load in a distributed system

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种网络爬虫系统及网络爬虫多任务执行和调度方法,所述方法包括:A、根据不同的内容和网站特点,对爬取内容进行细粒度切分并分别制作各爬虫解析模板文件,设置网络爬虫分别结合各爬虫解析模板文件形成用于执行爬取任务的各采集模块;B、多个节点服务器上分别部署所述网络爬虫,每个节点服务器分别设置有用于调度爬取任务的调度器;C、所述调度器按照预先定义的调度策略调用关联的采集模块执行爬取任务进行数据采集。本发明通过对爬取内容进行细粒度切分,实现任务的高并发执行,采取负载均衡策略,充分利用了服务器资源,爬取效率得到明显提高,而且避免了单机故障造成的系统可靠性不高的问题,保障了系统高可靠性运行。

Description

一种网络爬虫系统及网络爬虫多任务执行和调度方法
技术领域
本发明涉及搜索引擎技术领域,尤其涉及一种网络爬虫系统及网络爬虫多任务执行和调度方法。
背景技术
随着互联网信息的爆炸式增长,传统的网络爬虫采集数据的方式已经逐渐显示出劣势。传统的网络爬虫采集数据时任务没有细粒度的切分,耗时比较长,服务器CPU、内存和网络带宽的限制,数据爬取效率比较低下,而且容易出现单点故障。
因此,现有技术还有待于改进和发展。
发明内容
鉴于上述现有技术的不足,本发明的目的在于提供一种网络爬虫系统及网络爬虫多任务执行和调度方法,旨在解决目前网络爬虫采集数据方法效率低,耗时长的问题。
本发明的技术方案如下:
一种网络爬虫多任务执行和调度方法,其中,所述方法包括:
A、根据不同的内容和网站特点,对待爬取内容进行细粒度切分并根据切分后内容分别制作各爬虫解析模板文件,设置网络爬虫分别结合各爬虫解析模板文件形成用于执行爬取任务的各采集模块;
B、多个节点服务器上分别部署所述网络爬虫,每个节点服务器分别设置有用于调度爬取任务的调度器;
C、所述调度器按照预先定义的调度策略调用关联的采集模块执行爬取任务进行数据采集。
所述的网络爬虫多任务执行和调度方法,其中,所述步骤A中根据不同的内容和网站特点,对待爬取内容进行细粒度切分具体为:
当所述待爬取内容包括多个类型相同的网站时,将多个类型相同的网站切分为单个网站;
或者,当单个网站包含多个内容不同的版块时,将单个网站切分为不同的版块;
或者,当单一板块中包含多个页面时,将单一板块切分为多个页面。
所述的网络爬虫多任务执行和调度方法,其中,所述切分后的内容之间无关联性,所述各采集模块分别对应关联各爬取任务。
所述的网络爬虫多任务执行和调度方法,其中,所述各爬取任务之间无关联性,每一爬取任务通过一独立线程完成。
所述的网络爬虫多任务执行和调度方法,其中,所述预先定义的调度策略包括:
指定所述爬取任务在一固定的节点服务器上执行;
按照所述节点服务器节点等比原则在多个节点服务器中随机分配爬取任务;
根据所述多个节点服务器当前的资源信息,优先选择资源利用率低的节点服务器执行爬取任务。
所述的网络爬虫多任务执行和调度方法,其中,所述预先定义的调度策略具体设置为:
预先设置并存储一信息列表,所述信息列表中存储有所述节点服务器的IP、端口信息、爬取任务信息;读取所述信息列表获取爬取任务与节点服务器的对应关系,按照所述对应关系在相应的节点服务器上的执行爬取任务;
设置所述各节点服务器节点权重均为1,按照该等比原则在多个节点服务器中随机分配爬取任务;
定期获取所述多个节点服务器当前的CPU、内存资源信息,根据所获取的资源信息优先选择资源利用率低的节点服务器执行爬取任务,若存在资源利用率相同的节点服务器,则在该类节点服务器中随机分配爬取任务。
所述的网络爬虫多任务执行和调度方法,其中,所述方法还包括:设置一用于保存爬取任务信息的数据库,所述数据库分别与所述多个节点服务器相连接,所述节点服务器上的各调度器通过各自独立的线程定期检查所述数据库。
所述的网络爬虫多任务执行和调度方法,其中,所述步骤C中所述调度器按照预先定义的调度策略调用关联的采集模块之前还包括:
所述节点服务器第一次运行时,将所获取的爬取任务信息初始化到所述数据库。
所述的网络爬虫多任务执行和调度方法,其中,所述步骤C具体为:到爬取任务触发时间时,按照预先定义的调度策略,所述服务器节点的调度器触发自己的触发器获取数据库锁,获取所述数据库锁的调度器调用关联的采集模块,网络爬虫加载所述爬虫解析模板文件采集数据,同时更新爬取任务状态并持久化到所述数据库。
一种具有如上所述的网络爬虫多任务执行和调度的系统,其中,所述系统包括:
数据库:分别所述节点服务器连接用于保存爬取任务信息;
节点服务器,用于执行网络爬虫爬取任务;所述节点服务器包括:
采集模块,通过所述爬虫解析模板文件形成用于具体执行爬取任务并进行数据采集;
调度器,用于按照预先定义的调度策略调用关联的采集模块执行爬取任务。
有益效果:本发明提供一种网络爬虫系统及网络爬虫多任务执行和调度方法,通过对爬取内容进行细粒度切分,实现任务的高并发执行,采取负载均衡策略,充分利用了服务器资源,提高了爬取数据的速度,爬取效率得到明显提高,而且避免了单机故障造成的系统可靠性不高的问题,保障了系统高可靠性运行。
附图说明
图1为本发明的网络爬虫多任务执行和调度方法较佳实施例的方法流程图。
图2为本发明的网络爬虫系统较佳实施例的逻辑架构图。
图3为图2的节点服务器爬虫结构示意图。
图4为图2的节点服务器节点调度结构示意图。
图5为图1中步骤S300的具体实施例的方法流程图。
具体实施方式
本发明提供一种网络爬虫系统及网络爬虫的多任务执行和调度方法,这里所述的网络爬虫也即不间断地执行某项任务的人工智能软件程序。为使本发明的目的、技术方案及效果更加清楚、明确,以下对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如图1所示的一种网络爬虫多任务执行和调度方法的较佳实施例,其中,所述方法包括:
S100、根据不同的内容和网站特点,对待爬取内容进行细粒度切分并根据切分后内容分别制作各爬虫解析模板文件,设置网络爬虫分别结合各爬虫解析模板文件形成用于执行爬取任务的各采集模块。
其中,根据不同的内容和网站特点,对待爬取内容进行细粒度切分通俗的讲是将要爬取的比较大的内容分离为若干个小的内容,更为具体的:当所述待爬取内容包括类型相同的多个网站时,将类型相同的多个相同的网站切分为单个网站,例如优酷、爱奇艺、土豆网站都有电影,采集这3个网站的电影,将这3个网站的电影与相关信息进行分开采集;或者,当单个网站包含多个内容不同的版块时,将单个网站切分为不同的版块;或者,当单一板块中包含多个页面时,将单一板块切分为多个页面。例如某网站上有资讯,资讯又分为国际、国内、社会、娱乐等类别。可以将资讯这个大版块分为国际、国内、社会、娱乐等小版块进行独立采集。
由于所述切分后的内容之间无关联性,且所述各采集模块分别对应关联各爬取任务,因而所要执行的各爬取任务之间也必然无关联性。按照上述的方法将爬取内容切分成细小内容后,由独立的任务进行爬取且设定每一爬取任务通过一独立线程完成,由于任务彼此之间无关联性,在调度器的调度下可以同时执行,即可具有并发执行的特点。
较佳的是,所述爬虫解析模板文件是一个xml文件,里面定义要爬取的内容,利用xpath、xquery对内容进行抽取。
<?xml version="1.0" encoding="utf-8"?>
<config charset="utf-8">
<script>
//脚本代码
</script>
<var-def name="url">http:www.xxx.com</var-def>
<var-def name="link">
<xpath expression="//div[@class='maincol']/div[@class='catars']/div[@class='items']/ul[@class='star']/li[@class='name']/a/@href">
<html-to-xml>
<http url="${url}" charset="utf-8"/>
</html-to-xml>
</xpath>
</var-def>
</config>
S200、多个节点服务器上分别部署所述网络爬虫,每个节点服务器分别设置有用于调度爬取任务的调度器;
另外,所述方法还包括:设置一用于保存爬取任务信息的数据库,所述数据库分别与所述多个节点服务器相连接,所述节点服务器上的各调度器通过各自独立的线程定期检查所述数据库。
每个节点服务器上部署相同的网络爬虫,每个节点服务器上的网络爬虫都有一个调度器,这些调度器之间不直接进行通信,它们之间通过独立的线程定期检查数据库获取其它任务的状态信息。当某个服务器节点宕机后,其它的调度器可以很快检测到。具体为:调度器设置有一个检测节点状态的线程,当一个节点正在执行,发生一个或多个任务失败的时候,失败的信息会即时记录在数据库中,其它节点的检测节点状态线程通过定期地查询数据库中的任务状态信息,可发现这些失败的任务,当发现任务执行失败之后可根据预先定义的调度策略,调度其它服务器节点上的任务。
S300、所述调度器按照预先定义的调度策略调用关联的采集模块执行爬取任务进行数据采集。
其中,所述预先定义的调度策略包括:
一、指定所述爬取任务在一固定的节点服务器上执行。具体为:预先设置并存储一信息列表,所述信息列表中存储有所述节点服务器的IP、端口信息、爬取任务信息;读取所述信息列表获取爬取任务与节点服务器的对应关系,按照所述对应关系在相应的节点服务器上的执行信息爬取任务;
二、按照所述节点服务器节点等比原则在多个节点服务器中随机分配爬取任务。任务随机分配的好处是:在服务器配置基本相同的情况下,采用随机分配,算法比较简单,实现比较容易,选择节点服务器所耗时间也比较少。其中设置所述各节点服务器节点权重均为1,当第一个任务要到达执行时间点时,随机选择某一台服务器上的任务执行,当第二个任务要到达执行时间点时,随机选择另一台服务器上的任务执行,这样各服务器上运行任务的个数几乎相等。
三、根据所述多个节点服务器当前的资源信息,优先选择资源利用率低的节点服务器执行爬取任务。其中,所述资源信息包括节点服务器当前的CPU、内存等资源信息,优先选择资源利用率低的节点服务器执行爬取任务,若资源利用率相同或相近,则采用随机分配。
较佳实施例中,所述步骤S300具体为:所述节点服务器第一次运行时,将所获取的爬取任务信息初始化到所述数据库,调度器通过专门的线程检查数据库的任务状态,当到爬取任务触发时间时,按照预先定义的调度策略,所述服务器节点的调度器触发自己的触发器获取数据库锁,获取所述数据库锁的调度器调用关联的采集模块,网络爬虫加载所述爬虫解析模板文件采集数据,同时更新爬取任务状态并持久化到所述数据库,即将任务的状态信息标识为运行状态并记录在数据库的表中。
任务结束时,将数据库表中任务的状态信息更新为等待状态,同时更新任务的下一次调度时间,等待下一次调度。
如图2所示的一种具有如上所述的网络爬虫多任务执行和调度的系统,其中,所述系统包括:
数据库100:用于保存爬取任务信息;
节点服务器201、202、203、204,用于执行网络爬虫爬取任务;所述节点服务器分别与数据库100连接并随时对数据库100进行读写操作,所有节点服务器均连接网络300
所述节点服务器201~204具有相同的爬虫结构,如图3所示,包括:
采集模块221~223,通过所述爬虫解析模板文件形成,用于具体执行爬取任务进行数据采集;具体的,采集模块由爬虫解析模板文件和加载、解析这种模板文件的程序构成。采集模块启动后,程序开始加载解析模板文件,再分析、解析这种模板文件,然后执行数据采集。
调度器210,用于按照预先定义的调度策略调用关联的采集模块执行爬取任务。每个节点服务器中均设置有调度器。
如图3所示,针对不同爬取任务1、2、3分别对应设置不同的采集模块221、222、223,在节点服务器中,调度器和设置的采集模块就形成了3个节点的服务器爬虫结构。当然,具体爬虫数量可根据爬取任务的多少进行设置。
如图4所示为本发明的节点服务器节点调度结构示意图,图中设置了3个服务器节点爬虫301、302、303,每个节点服务器中分别设置有调度器211(调度器1)、212(调度器2)、213(调度器3)。调度器之间不直接进行通信。
调度器通过调用采集模块执行相应爬取任务,各爬取任务之间无关联,设置多个采集模块并行处理多个爬取任务。
各节点服务器均连接同一个数据库100,调度器通过从数据库100中获取任务的信息来实现对任务的调度执行并将任务的信息改变更新到数据库100中。在数据库100中设置一个存放锁标识的数据表,里面存放各任务执行必须拥有的一个标识,当一个任务到达执行时间的时候,调度器就会从数据库100查询所述的标识,并将数据库表中这行记录锁定(可利用数据库自身的锁定机制),直到任务执行完后才释放琐。其它节点服务器的调度器因为这行记录被锁定而获取不到任务执行需要的标识,所以这个任务就不会在其它的节点上执行。节点上的调度器之间通过这种方式间接地通信。
例如,通过调度器1可依据定义的指定所述爬取任务在一固定的节点服务器上执行的调度策略调度采集模块224专门执行爬取任务1,而调度器2可依据随机分配爬取任务的调度策略调度采集模块225执行爬取任务2的同时,也调度采集模块226执行爬取任务6。调度器3可依据优先选择资源利用率低的节点服务器执行爬取任务调度采集模块227执行爬取任务3。充分利用服务器资源,提高了爬虫的效率。
如图5所示为本发明图1中步骤S300较佳实施例的方法流程图,具体步骤如下:
S1、调度器启动。
S2、启动成功/失败。检测各节点服务器的调度器启动情况,并进行反馈,若启动成功,则执行步骤S3,若启动失败,则执行步骤S9。
S3、获取任务状态信息调度任务。调度器通过独立线程从数据库获取任务状态信息进而安排调度任务。
S4、调度任务成功/失败。在调度器获取任务状态信息后检测其调度任务是否成功,若成功,则执行步骤S5,若失败,则返回执行步骤S3,调度器重新调度任务。
S5、采集模块执行任务。调度器按照预定义的策略调度采集模块执行相应爬取任务。
S6、任务成功/失败。判断检测爬取任务是否成功执行,若成功,则执行步骤S7,若失败,则执行步骤S3,调度器重新调度任务。
S7、数据入库,将爬取任务执行信息反馈至数据库中。
S8、更新任务状态信息,对数据库中的任务状态信息进行更新。
S9、结束
本发明提供一种网络爬虫系统及网络爬虫多任务执行和调度方法,通过对爬取内容进行细粒度切分,实现任务的高并发执行,采取负载均衡策略,充分利用了服务器资源,提高了爬取数据的速度,爬取效率得到明显提高,而且避免了单机故障造成的系统可靠性不高的问题,保障了系统高可靠性运行。
应当理解的是,本发明的应用不限于上述的举例,对本领域普通技术人员来说,可以根据上述说明加以改进或变换,所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims (7)

1.一种网络爬虫多任务执行和调度方法,其特征在于,所述方法包括:
A、根据不同的内容和网站特点,对待爬取内容进行细粒度切分并根据切分后内容分别制作各爬虫解析模板文件,设置网络爬虫分别结合各爬虫解析模板文件形成用于执行爬取任务的各采集模块;
B、多个节点服务器上分别部署所述网络爬虫,每个节点服务器分别设置有用于调度爬取任务的调度器;
C、所述调度器按照预先定义的调度策略调用关联的采集模块执行爬取任务进行数据采集;
所述切分后的内容之间无关联性,所述各采集模块分别对应关联各爬取任务;
所述各爬取任务之间无关联性,每一爬取任务通过一独立线程完成;
所述各爬取任务在调度器的调度下同时并发执行;
调度器通过调用采集模块执行相应爬取任务,各爬取任务之间无关联,设置多个采集模块并行处理多个爬取任务;
所述步骤A中根据不同的内容和网站特点,对待爬取内容进行细粒度切分具体为:
当所述待爬取内容包括多个类型相同的网站时,将多个类型相同的网站切分为单个网站;
或者,当单个网站包含多个内容不同的版块时,将单个网站切分为不同的版块;
或者,当单一板块中包含多个页面时,将单一板块切分为多个页面。
2.根据权利要求1所述的网络爬虫多任务执行和调度方法,其特征在于,所述预先定义的调度策略包括:
指定所述爬取任务在一固定的节点服务器上执行;
按照所述节点服务器节点等比原则在多个节点服务器中随机分配爬取任务;
根据所述多个节点服务器当前的资源信息,优先选择资源利用率低的节点服务器执行爬取任务。
3.根据权利要求2所述的网络爬虫多任务执行和调度方法,其特征在于,所述预先定义的调度策略具体设置为:
预先设置并存储一信息列表,所述信息列表中存储有所述节点服务器的IP、端口信息、爬取任务信息;读取所述信息列表获取爬取任务与节点服务器的对应关系,按照所述对应关系在相应的节点服务器上的执行爬取任务;
设置所述各节点服务器节点权重均为1,按照该等比原则在多个节点服务器中随机分配爬取任务;
定期获取所述多个节点服务器当前的CPU、内存资源信息,根据所获取的资源信息优先选择资源利用率低的节点服务器执行爬取任务,若存在资源利用率相同的节点服务器,则在该类节点服务器中随机分配爬取任务。
4.根据权利要求1所述的网络爬虫多任务执行和调度方法,其特征在于,所述方法还包括:设置一用于保存爬取任务信息的数据库,所述数据库分别与所述多个节点服务器相连接,所述节点服务器上的各调度器通过各自独立的线程定期检查所述数据库。
5.根据权利要求4所述的网络爬虫多任务执行和调度方法,其特征在于,所述步骤C中所述调度器按照预先定义的调度策略调用关联的采集模块之前还包括:
所述节点服务器第一次运行时,将所获取的爬取任务信息初始化到所述数据库。
6.根据权利要求3或4所述的网络爬虫多任务执行和调度方法,其特征在于,所述步骤C具体为:到爬取任务触发时间时,按照预先定义的调度策略,所述服务器节点的调度器触发自己的触发器获取数据库锁,获取所述数据库锁的调度器调用关联的采集模块,网络爬虫加载所述爬虫解析模板文件采集数据,同时更新爬取任务状态并持久化到所述数据库。
7.一种具有权利要求1-6任一项所述的网络爬虫多任务执行和调度的系统,其特征在于,所述系统包括:
数据库:分别所述节点服务器连接用于保存爬取任务信息;
节点服务器,用于执行网络爬虫爬取任务;所述节点服务器包括:
采集模块,通过所述爬虫解析模板文件形成用于具体执行爬取任务并进行数据采集;
调度器,用于按照预先定义的调度策略调用关联的采集模块执行爬取任务。
CN201310610659.4A 2013-11-26 2013-11-26 一种网络爬虫系统及网络爬虫多任务执行和调度方法 Expired - Fee Related CN103605764B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310610659.4A CN103605764B (zh) 2013-11-26 2013-11-26 一种网络爬虫系统及网络爬虫多任务执行和调度方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310610659.4A CN103605764B (zh) 2013-11-26 2013-11-26 一种网络爬虫系统及网络爬虫多任务执行和调度方法

Publications (2)

Publication Number Publication Date
CN103605764A CN103605764A (zh) 2014-02-26
CN103605764B true CN103605764B (zh) 2017-10-24

Family

ID=50123986

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310610659.4A Expired - Fee Related CN103605764B (zh) 2013-11-26 2013-11-26 一种网络爬虫系统及网络爬虫多任务执行和调度方法

Country Status (1)

Country Link
CN (1) CN103605764B (zh)

Families Citing this family (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103870329B (zh) * 2014-03-03 2017-01-18 同济大学 基于加权轮叫算法的分布式爬虫任务调度方法
CN103902684B (zh) * 2014-03-25 2018-02-23 浪潮电子信息产业股份有限公司 一种爬虫采集内容结构化的方法
CN104142985B (zh) * 2014-07-23 2018-02-06 哈尔滨工业大学(威海) 一种半自动化的垂直爬虫生成工具及方法
CN104391990A (zh) * 2014-12-16 2015-03-04 浪潮软件集团有限公司 一种基于垂直行业的多任务式采集与收割方法
CN105989151B (zh) * 2015-03-02 2019-09-06 阿里巴巴集团控股有限公司 网页抓取方法及装置
CN104660715A (zh) * 2015-03-16 2015-05-27 浪潮集团有限公司 一种基于数据服务的开放接口实现方法
CN106202108B (zh) * 2015-05-06 2019-09-06 阿里巴巴集团控股有限公司 网络爬虫抓取任务分配方法与装置及数据抓取方法与装置
CN104915259A (zh) * 2015-06-15 2015-09-16 浪潮软件集团有限公司 一种应用于分布式采集系统的任务调度方法
CN106487759A (zh) * 2015-08-28 2017-03-08 北京奇虎科技有限公司 一种检测推广url有效性和安全性的方法和装置
CN106649362B (zh) * 2015-10-30 2020-02-07 北京国双科技有限公司 网页爬取方法和装置
CN105589949B (zh) * 2015-12-18 2020-05-29 晶赞广告(上海)有限公司 一种自定义职责链及后置处理模块的分布式爬虫方法
CN106326447B (zh) * 2016-08-26 2019-06-21 北京量科邦信息技术有限公司 一种众包网络爬虫抓取数据的检测方法及系统
CN106886459B (zh) * 2017-01-24 2019-07-23 浙江工商大学 一种基于实测带宽的多智能体互联网数据采集任务分配方法
WO2018165839A1 (zh) * 2017-03-14 2018-09-20 深圳市博信诺达经贸咨询有限公司 分布式爬虫实现方法及系统
CN107071009A (zh) * 2017-03-28 2017-08-18 江苏飞搏软件股份有限公司 一种负载均衡的分布式大数据爬虫系统
CN107451223A (zh) * 2017-07-17 2017-12-08 广州特道信息科技有限公司 一种高并发并行计算的大数据采集系统及方法
CN107590188B (zh) * 2017-08-08 2020-02-14 杭州灵皓科技有限公司 一种自动化垂直细分领域的爬虫爬取方法及其管理系统
CN107391775A (zh) * 2017-08-28 2017-11-24 湖北省楚天云有限公司 一种通用的网络爬虫模型实现方法及系统
CN107590236B (zh) * 2017-09-09 2020-08-28 数立方(杭州)信息科技有限公司 一种面向建筑施工企业的大数据采集方法和系统
CN107870861A (zh) * 2017-10-10 2018-04-03 上海壹账通金融科技有限公司 网页爬取的并发测试方法及应用服务器
CN107657053A (zh) * 2017-10-17 2018-02-02 山东浪潮云服务信息科技有限公司 一种爬虫实现方法及装置
CN108334585A (zh) * 2018-01-29 2018-07-27 湖北省楚天云有限公司 一种网页爬虫方法、装置以及电子设备
CN109213912A (zh) * 2018-08-16 2019-01-15 北京神州泰岳软件股份有限公司 一种抓取网络数据的方法及网络数据抓取调度装置
CN109582853A (zh) * 2018-12-19 2019-04-05 平安科技(深圳)有限公司 数据信息获取方法、装置、计算机设备及存储介质
CN110297962B (zh) * 2019-06-28 2021-08-24 北京金山安全软件有限公司 网站资源的爬取方法、装置、系统和计算机设备
CN110928688A (zh) * 2019-11-29 2020-03-27 电子科技大学 一种分布式爬虫任务的调度系统及方法
CN111708931B (zh) * 2020-06-06 2020-12-25 湖南伟业动物营养集团股份有限公司 基于移动互联网的大数据采集方法及人工智能云服务平台
CN112035725A (zh) * 2020-09-03 2020-12-04 北大方正集团有限公司 数据采集系统和方法
CN112231536A (zh) * 2020-10-26 2021-01-15 中国信息安全测评中心 一种基于自学习的数据爬取方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102063477A (zh) * 2010-12-13 2011-05-18 百度在线网络技术(北京)有限公司 一种网站数据抓取装置及方法
CN102663058A (zh) * 2012-03-30 2012-09-12 华中科技大学 一种分布式网络爬虫系统中的url去重方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090125529A1 (en) * 2007-11-12 2009-05-14 Vydiswaran V G Vinod Extracting information based on document structure and characteristics of attributes

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102063477A (zh) * 2010-12-13 2011-05-18 百度在线网络技术(北京)有限公司 一种网站数据抓取装置及方法
CN102663058A (zh) * 2012-03-30 2012-09-12 华中科技大学 一种分布式网络爬虫系统中的url去重方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于自动生成模板的 Web 信息抽取技术;张彦超 等;《北京交通大学学报》;20091031;第33卷(第5期);第40-45页 *
面向P2P网络的分布式Web Crawler的研究;马晶;《中国优秀硕士学位论文全文数据库信息科技辑》;20130315(第2013年第03期);第I138-1820页 *

Also Published As

Publication number Publication date
CN103605764A (zh) 2014-02-26

Similar Documents

Publication Publication Date Title
CN103605764B (zh) 一种网络爬虫系统及网络爬虫多任务执行和调度方法
CN105245373B (zh) 一种容器云平台系统的搭建及运行方法
CN105243159B (zh) 一种基于可视化脚本编辑器的分布式网络爬虫系统
US10402424B1 (en) Dynamic tree determination for data processing
US9996593B1 (en) Parallel processing framework
CN103207785B (zh) 数据下载请求的处理方法、装置及系统
CN109002484B (zh) 一种用于顺序消费数据的方法及系统
Neary et al. Javelin 2.0: Java-based parallel computing on the Internet
CN110147475A (zh) 一种分布式部署的网络数据采集系统
CN108563425A (zh) 一种事件驱动的多流程协同处理系统
CN105653365A (zh) 任务处理方法及装置
CN107092523A (zh) 定时任务的调度方法和系统
Jain Mastering apache storm: Real-time big data streaming using kafka, hbase and redis
US10831565B2 (en) Fault tolerant adapter system to consume database as a service
CN105260388A (zh) 一种分布式垂直爬虫服务系统的优化方法
CN110020043B (zh) 页面爬取方法、装置、存储介质及处理器
CN102377799B (zh) 手机浏览器服务器端及其实现浏览器双线程模式的方法
CN108520024A (zh) 基于Spark Streaming的双周期爬虫系统及其运行方法
US20200012545A1 (en) Event to serverless function workflow instance mapping mechanism
CN106033428A (zh) 统一资源定位符的选择方法和统一资源定位符的选择装置
CN104281488B (zh) 服务器引擎的实现方法和系统
Mirtaheri et al. Dist-ria crawler: A distributed crawler for rich internet applications
CN108021431A (zh) 基于Web数据交互管理Hive的方法及其系统
CN103678488A (zh) 分布式大批量动态任务引擎及采用其处理数据的方法
CN107657053A (zh) 一种爬虫实现方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20171024

CF01 Termination of patent right due to non-payment of annual fee