CN103533097B - 一种网络爬虫下载解析方法及装置 - Google Patents

一种网络爬虫下载解析方法及装置 Download PDF

Info

Publication number
CN103533097B
CN103533097B CN201310471411.4A CN201310471411A CN103533097B CN 103533097 B CN103533097 B CN 103533097B CN 201310471411 A CN201310471411 A CN 201310471411A CN 103533097 B CN103533097 B CN 103533097B
Authority
CN
China
Prior art keywords
address
download
parsing
thread
downloading task
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310471411.4A
Other languages
English (en)
Other versions
CN103533097A (zh
Inventor
周东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Original Assignee
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingdong Century Trading Co Ltd, Beijing Jingdong Shangke Information Technology Co Ltd filed Critical Beijing Jingdong Century Trading Co Ltd
Priority to CN201310471411.4A priority Critical patent/CN103533097B/zh
Publication of CN103533097A publication Critical patent/CN103533097A/zh
Application granted granted Critical
Publication of CN103533097B publication Critical patent/CN103533097B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种网络爬虫下载解析方法及装置,下载解析方法包括:将多个待下载网络地址划分为多个下载任务;将包括有多个IP地址的代理IP地址池划分为多个IP地址集合;为每个所述下载任务分配一个可支配IP地址集合,为每个所述下载任务建立一个下载线程池;每个所述下载线程从可支配IP地址集合中分配一个IP地址;每个所述下载任务采用所述下载线程池执行多线程下载,下载网页数据;对所述网页数据进行解析。本发明对同一个待下载网络地址采用多下载线程下载时,由于每个下载线程的IP地址均不一样,因此,能很好地模拟真实用户的下载行为,避免待下载网站将下载线程判定为不友好下载而采取禁止下载的措施。

Description

一种网络爬虫下载解析方法及装置
技术领域
本发明涉及网络爬虫相关技术领域,特别是一种网络爬虫下载解析方法及装置。
背景技术
互联网数据每天以数亿级增长,网络爬虫在数据采集中起着举足轻重的作用。一个网络爬虫系统最核心的两大模块是下载和解析模块。
对于一个单节点网络爬虫的数据下载与解析目前有两种方法:
(1)常规顺序执行方法:首先从种子URL队列里挨个取得URL种子,通过使用开源工具Httpclient,对URL种子地址发送下载网页请求,然后进行模拟登陆和请求数据,进而下载网页源代码数据,最后对下载的网页数据进行解析。其中模拟登陆不是必需的,因为一些数据下载不需要登陆。工作流程图如图1所示。
(2)多线程并行执行方法:这种方法是以第一种常规顺序方法为基础,将顺序执行的全过程创建为一个线程。每个线程都是从URL种子队列中取出一个或者多个URL,然后顺序执行下载与解析数据,最后保存数据。流程图如图2所示。
现有的技术方案中,第一种方法是从URL种子队列中取出种子,顺序执行下载、解析。这种方法不存在多线程并发,所以好处是可以充分像真实用户一样模拟URL数据下载请求。但是该方法有2个缺点:第一,效率较低。这种方法相当于串行执行任务,每个URL种子数据的下载和解析必须等到前面的URL执行完成之后才能执行。第二,资源利用率较低。一次只能有一个URL地址的下载及解析,其耗费的CPU及内存占比很小,一般不会超过10%,但是与此同时后面还有大量待抓取的种子URL在排着队,这就造成资源利用率低的问题。
第二种方法较第一种方法有所改进,引入了多线程机制,效率及资源利用率有所提升。但是该方法同样存在如下缺点:第一,不能模拟真实用户请求下载。多线程URL请求下载的时候,同一个网站,不同的子URL,如果同一时间点有多个线程去请求不同的子URL,而同时本节点对外默认是一个本机的IP,那这种行为就被认为不是真实用户的行为,不友好,从而会对下载行为实施禁止下载等措施。第二,该方法虽然引入了多线程,但是每个线程依然是串行的,虽然总体提升了资源利用率,但是一定程度上提高的还不够。一个下载的过程包括客户端发送数据请求、建立网络连接、对方服务器响应请求、数据传送与本地客户端接收,这些行为同时也和网络有很大的关系,所以一个URL地址的数据下载从发送请求到下载完成,这个过程所花费的时间是不确定性的,通常比解析过程时间长。解析的效率主要取决于机器及解析方式本身,如CPU性能、内存大小、正则表达式内容解析等,而下载与网络关系较大,并且需要主动提供信息如IP地址以及一些本机Cookie信息等。所以下载与解析这个两个模块在一个线程中串行执行,导致资源利用率不够充分。
发明内容
基于此,有必要针对现有技术存在的网络爬虫不能真实地模拟用户下载行为的技术问题,提出一种网络爬虫下载解析方法及装置。
一种网络爬虫下载解析方法,包括:
将多个待下载网络地址划分为多个下载任务,所述下载任务包括多个所述待下载网络地址;
将包括有多个IP地址的代理IP地址池划分为多个IP地址集合,每个所述IP地址集合包括多个所述代理IP地址池中的IP地址,每个所述IP地址集合包括的代理IP地址池中的IP地址的个数为所述IP地址集合的可支配IP个数;
为每个所述下载任务分配一个所述IP地址集合作为所述下载任务的可支配IP地址集合,为每个所述下载任务建立包括多个下载线程的下载线程池,所述下载任务所包括的每个所述下载线程从所述下载任务的所述可支配IP地址集合中分配一个所述IP地址;
每个下载任务采用所述下载线程池执行多线程下载,从下载任务所包括的待下载网络地址下载网页数据;
对所述网页数据进行解析。
一种网络爬虫下载解析装置,包括:
下载任务生成模块,用于将多个待下载网络地址划分为多个下载任务,所述下载任务包括多个所述待下载网络地址;
IP地址集合生成模块,用于将包括有多个IP地址的代理IP地址池划分为多个IP地址集合,每个所述IP地址集合包括多个所述代理IP地址池中的IP地址,每个所述IP地址集合包括的代理IP地址池中的IP地址的个数为所述IP地址集合的可支配IP个数;
下载线程分配IP地址模块,用于为每个下载任务分配一个所述IP地址集合作为下载任务的可支配IP地址集合,为每个下载任务建立包括多个下载线程的下载线程池,所述下载任务所包括的每个下载线程从下载任务的可支配IP地址集合中分配一个IP地址;
下载模块,用于每个下载任务采用所述下载线程池执行多线程下载,从下载任务所包括的待下载网络地址下载网页数据;
解析模块,用于对所述网页数据进行解析。
本发明将多个待下载网络地址划分为多个任务,同时将多个IP地址划分为多个IP地址集合,对于一个下载任务分配一个IP地址集合,且同一下载任务所生成的下载线程分配IP地址集合中的一个IP地址,因此,对同一个待下载网络地址采用多下载线程下载时,由于每个下载线程的IP地址均不一样,因此,能很好地模拟真实用户的下载行为,避免待下载网站将下载线程判定为不友好下载而采取禁止下载的措施。
附图说明
图1为现有第一种网络爬虫下载方式示意图;
图2为现有第二种网络爬虫下载方式示意图;
图3为本发明一种网络爬虫下载解析方法的工作流程图;
图4为本发明一个例子的工作流程图;
图5为一个下载的网页源代码的截图;
图6为本发明一种网络爬虫下载解析装置的结构模块图。
具体实施方式
下面结合附图和具体实施例对本发明做进一步详细的说明。
如图3所示为本发明一种网络爬虫下载解析方法的工作流程图,包括:
步骤S301,将多个待下载网络地址划分为多个下载任务,所述下载任务包括多个所述待下载网络地址;
步骤S302,将包括有多个IP地址的代理IP地址池划分为多个IP地址集合,每个所述IP地址集合包括多个所述代理IP地址池中的IP地址,每个所述IP地址集合包括的代理IP地址池中的IP地址的个数为所述IP地址集合的可支配IP个数;
步骤S303,为每个下载任务分配一个所述IP地址集合作为下载任务的可支配IP地址集合,为每个下载任务建立包括多个下载线程的下载线程池,所述下载任务所包括的每个下载线程从下载任务的可支配IP地址集合中分配一个IP地址;
步骤S304,每个下载任务采用所述下载线程池执行多线程下载,从下载任务所包括的待下载网络地址下载网页数据;
步骤S305,对所述网页数据进行解析。
其中,步骤S301将多个待下载网络地址划分为多个下载任务,待下载网络地址可以采用URL种子的形式实现。
其中,步骤S304中,采用多线程下载时,每个下载线程所使用的IP地址均不同,因此,能很好地模拟真实用户的下载行为。
其中,步骤S305中,对网页数据进行解析,指的是从网页数据的源代码中获得该网络爬虫需要的数据。
在其中一个实施例中,采用如下方式计算每个所述IP地址集合的所述可支配IP个数:
将多个所述待下载网络地址划分为m个所述下载任务,每个下载任务包括多个所述待下载网络地址,其中m为大于或等于2的自然数;
将所述代理IP地址池中的n个IP地址划分为m个IP地址集合,其中n为大于或等于m的自然数,每个所述IP地址集合包括多个代理IP地址池中的IP地址;
计算以m为除数n为被除数的商,记为num1;
计算以m为除数n为被除数的余数,记为num2;
令每个所述IP地址集合的可支配IP个数为num1,且如果num2大于0,则选择num2个IP地址集合的可支配IP个数为num1+1。
本实施例,用于计算每个所述IP地址集合的所述可支配IP个数的方式,使得每个IP地址集合的可支配IP个数基本接近,避免某个IP地址集合的可支配IP个数与另一个IP地址集合的可支配IP个数相差太多,从而使得系统资源能得到最大优化。
在其中一个实施例中,每个所述下载任务的所述下载线程池所包括的所述下载线程的数量少于或等于所述IP地址集合的可支配IP个数。从而避免同一个IP地址同时请求同一个网站的多个URL地址,从而更好地模拟真实用户的下载行为。
在其中一个实施例中,为每个所述下载任务创建一个任务管理线程。每个下载任务均关联一个任务管理线程,从而能更好地对每个下载任务进行管理。
在其中一个实施例中,采用与所述下载线程无关的解析线程对所述网页数据进行解析。
本实施例中,解析线程与下载线程无关,将对网页数据的下载与对网页数据的解析完全分离,因此下载线程是否完成对网页数据的下载,并不会影响解析线程对网页数据的解析。
优选地,每个所述下载任务采用所述下载线程池执行多线程下载,从下载任务所包括的待下载网络地址下载网页数据,并将所述网页数据发送到包括多个解析线程的解析线程池,所述解析线程池采用所述解析线程对所述网页数据执行多线程解析。
所有下载完成的网页数据,均保存在解析线程池中,由解析线程池采用多线程解析,从而得到该网络爬虫需要得到的数据。
如图4所示为本发明一个例子的工作流程图,包括:
步骤S401,从待抓取的URL种子队列中取出固定数值的URL种子,这个固定数值一般可以大于或等于2,然后根据这些URL种子,创建一个下载任务,同时创建并启动一个执行该下载任务的任务管理线程。然后重复上述步骤,将最终生成多个下载任务及相应的任务管理线程,假设生成的任务数为m。
步骤S402,将包括有多个IP地址的代理IP地址池划分为多个IP地址集合。其中,IP地址的数量为n,n大于或等于m,IP地址分别为IP1、IP2、…、IPn,。根据步骤S401生成的任务数m,将n个IP地址划分为m份,记为集合C={C1、C2、…、Cm},其中每个元素也同时为一个子集合。现需要计算2个值,以m为除数,n为被除数,计算出商,记为num1,同时计算出余数,记为num2。计算公式如下:
num1=n/m;
num2=n%m;
步骤S403,为每个所述下载任务分配一个所述IP地址集合作为所述下载任务的可支配IP地址集合。对每个下载任务,创建下载线程池,对下载任务中包含的多个URL种子,执行多线程下载,下载线程的数量为k,并且k需要满足条件:k小于或等于num1+1其中num1+1表示上述分到每个下载任务的可支配IP个数。之所以需要满足这个条件,原因是如果下载线程的数量大于下载任务的可支配IP个数,将无法避免同一个IP地址同时请求一个网站的多个URL地址,从而无法模拟真实用户请求下载。
步骤S404,执行多线程下载,首次执行,每个下载线程对应分配一个IP地址,该IP地址将从该下载任务的可支配IP地址集合中随机取得,当一个下载线程执行完下载之后,该下载线程继续取URL种子,然后执行下载,如果没有URL种子,则该下载线程将不会发送HTTP请求,自动释放使用的IP地址,该IP地址将会被回收,然后供其他下载线程使用。
步骤S404,创建一个独立的解析线程池,执行多线程内容解析。该解析无关IP,所以创建的是一个全局性的线程池。所有下载任务中每个下载线程执行下载完成之后,都将会把下载后的网页数据交给该解析线程池来解析。内容解析指的是从网页的源代码中获得该网络爬虫需要得到的数据,如图5为一个下载的网页源代码,对其进行解析,如解析出标题:“蓝烨:京东移动用户活跃度6月同比增4倍”。待网页数据解析完成之后,保存数据。
如图6所示为本发明一种网络爬虫下载解析装置的结构模块图,包括:
下载任务生成模块601,用于将多个待下载网络地址划分为多个下载任务,所述下载任务包括多个所述待下载网络地址;
IP地址集合生成模块602,用于将包括有多个IP地址的代理IP地址池划分为多个IP地址集合,每个所述IP地址集合包括多个所述代理IP地址池中的IP地址,每个所述IP地址集合包括的代理IP地址池中的IP地址的个数为所述IP地址集合的可支配IP个数;
下载线程分配IP地址模块603,用于为每个下载任务分配一个所述IP地址集合作为下载任务的可支配IP地址集合,为每个下载任务建立包括多个下载线程的下载线程池,所述下载任务所包括的每个下载线程从下载任务的可支配IP地址集合中分配一个IP地址;
下载模块604,用于每个下载任务采用所述下载线程池执行多线程下载,从下载任务所包括的待下载网络地址下载网页数据;
解析模块605,用于对所述网页数据进行解析。
在其中一个实施例中,采用如下方式计算每个所述IP地址集合的所述可支配IP个数:
将多个所述待下载网络地址划分为m个所述下载任务,每个下载任务包括多个所述待下载网络地址,其中m为大于或等于2的自然数;
将所述代理IP地址池中的n个IP地址划分为m个IP地址集合,其中n为大于或等于m的自然数,每个所述IP地址集合包括多个代理IP地址池中的IP地址;
计算以m为除数n为被除数的商,记为num1;
计算以m为除数n为被除数的余数,记为num2;
令每个所述IP地址集合的可支配IP个数为num1,且如果num2大于0,则选择num2个IP地址集合的可支配IP个数为num1+1。
在其中一个实施例中,每个所述下载任务的所述下载线程池所包括的所述下载线程的数量少于或等于所述IP地址集合的可支配IP个数。
在其中一个实施例中,为每个所述下载任务创建一个任务管理线程。
在其中一个实施例中,采用与所述下载线程无关的解析线程对所述网页数据进行解析。
在其中一个实施例中,每个所述下载任务采用所述下载线程池执行多线程下载,从下载任务所包括的待下载网络地址下载网页数据,并将所述网页数据发送到包括多个解析线程的解析线程池,所述解析线程池采用所述解析线程对所述网页数据执行多线程解析。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (12)

1.一种网络爬虫下载解析方法,其特征在于,包括:
将多个待下载网络地址划分为多个下载任务,所述下载任务包括多个所述待下载网络地址;
将包括有多个IP地址的代理IP地址池划分为多个IP地址集合,每个所述IP地址集合包括多个所述代理IP地址池中的IP地址,每个所述IP地址集合包括的代理IP地址池中的IP地址的个数为所述IP地址集合的可支配IP个数;
为每个下载任务分配一个所述IP地址集合作为下载任务的可支配IP地址集合,为每个下载任务建立包括多个下载线程的下载线程池,所述下载任务所包括的每个下载线程从下载任务的可支配IP地址集合中分配一个IP地址;
每个下载任务采用所述下载线程池执行多线程下载,从下载任务所包括的待下载网络地址下载网页数据;
对所述网页数据进行解析。
2.根据权利要求1所述的网络爬虫下载解析方法,其特征在于,采用如下方式计算每个所述IP地址集合的所述可支配IP个数:
将多个所述待下载网络地址划分为m个所述下载任务,每个下载任务包括多个所述待下载网络地址,其中m为大于或等于2的自然数;
将所述代理IP地址池中的n个IP地址划分为m个IP地址集合,其中n为大于或等于m的自然数,每个所述IP地址集合包括多个代理IP地址池中的IP地址;
计算以m为除数n为被除数的商,记为num1;
计算以m为除数n为被除数的余数,记为num2;
令每个所述IP地址集合的可支配IP个数为num1,且如果num2大于0,则选择num2个IP地址集合的可支配IP个数为num1+1。
3.根据权利要求1所述的网络爬虫下载解析方法,其特征在于,每个所述下载任务的所述下载线程池所包括的所述下载线程的数量少于或等于所述IP地址集合的可支配IP个数。
4.根据权利要求1所述的网络爬虫下载解析方法,其特征在于,为每个所述下载任务创建一个任务管理线程。
5.根据权利要求1所述的网络爬虫下载解析方法,其特征在于,采用与所述下载线程无关的解析线程对所述网页数据进行解析。
6.根据权利要求5所述的网络爬虫下载解析方法,其特征在于,每个所述下载任务采用所述下载线程池执行多线程下载,从下载任务所包括的待下载网络地址下载网页数据,并将所述网页数据发送到包括多个解析线程的解析线程池,所述解析线程池采用所述解析线程对所述网页数据执行多线程解析。
7.一种网络爬虫下载解析装置,其特征在于,包括:
下载任务生成模块,用于将多个待下载网络地址划分为多个下载任务,所述下载任务包括多个所述待下载网络地址;
IP地址集合生成模块,用于将包括有多个IP地址的代理IP地址池划分为多个IP地址集合,每个所述IP地址集合包括多个所述代理IP地址池中的IP地址,每个所述IP地址集合包括的代理IP地址池中的IP地址的个数为所述IP地址集合的可支配IP个数;
下载线程分配IP地址模块,用于为每个下载任务分配一个所述IP地址集合作为下载任务的可支配IP地址集合,为每个下载任务建立包括多个下载线程的下载线程池,所述下载任务所包括的每个下载线程从下载任务的可支配IP地址集合中分配一个IP地址;
下载模块,用于每个下载任务采用所述下载线程池执行多线程下载,从下载任务所包括的待下载网络地址下载网页数据;
解析模块,用于对所述网页数据进行解析。
8.根据权利要求7所述的网络爬虫下载解析装置,其特征在于,采用如下方式计算每个所述IP地址集合的所述可支配IP个数:
将多个所述待下载网络地址划分为m个所述下载任务,每个下载任务包括多个所述待下载网络地址,其中m为大于或等于2的自然数;
将所述代理IP地址池中的n个IP地址划分为m个IP地址集合,其中n为大于或等于m的自然数,每个所述IP地址集合包括多个代理IP地址池中的IP地址;
计算以m为除数n为被除数的商,记为num1;
计算以m为除数n为被除数的余数,记为num2;
令每个所述IP地址集合的可支配IP个数为num1,且如果num2大于0,则选择num2个IP地址集合的可支配IP个数为num1+1。
9.根据权利要求7所述的网络爬虫下载解析装置,其特征在于,每个所述下载任务的所述下载线程池所包括的所述下载线程的数量少于或等于所述IP地址集合的可支配IP个数。
10.根据权利要求7所述的网络爬虫下载解析装置,其特征在于,为每个所述下载任务创建一个任务管理线程。
11.根据权利要求7所述的网络爬虫下载解析装置,其特征在于,采用与所述下载线程无关的解析线程对所述网页数据进行解析。
12.根据权利要求11所述的网络爬虫下载解析装置,其特征在于,每个所述下载任务采用所述下载线程池执行多线程下载,从下载任务所包括的待下载网络地址下载网页数据,并将所述网页数据发送到包括多个解析线程的解析线程池,所述解析线程池采用所述解析线程对所述网页数据执行多线程解析。
CN201310471411.4A 2013-10-10 2013-10-10 一种网络爬虫下载解析方法及装置 Active CN103533097B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310471411.4A CN103533097B (zh) 2013-10-10 2013-10-10 一种网络爬虫下载解析方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310471411.4A CN103533097B (zh) 2013-10-10 2013-10-10 一种网络爬虫下载解析方法及装置

Publications (2)

Publication Number Publication Date
CN103533097A CN103533097A (zh) 2014-01-22
CN103533097B true CN103533097B (zh) 2017-03-15

Family

ID=49934761

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310471411.4A Active CN103533097B (zh) 2013-10-10 2013-10-10 一种网络爬虫下载解析方法及装置

Country Status (1)

Country Link
CN (1) CN103533097B (zh)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103902386B (zh) * 2014-04-11 2017-05-10 复旦大学 一种基于连接代理优化管理的多线程网络爬虫处理方法
CN103873597B (zh) * 2014-04-15 2017-10-10 厦门市美亚柏科信息股份有限公司 分布式网页下载方法和系统
CN105992194B (zh) * 2015-01-30 2019-10-29 阿里巴巴集团控股有限公司 网络数据内容的获取方法及装置
CN106202077B (zh) * 2015-04-30 2020-01-21 华为技术有限公司 一种任务分发方法及装置
CN105162885B (zh) * 2015-09-25 2019-04-12 宇龙计算机通信科技(深圳)有限公司 资源下载方法、资源下载系统和终端
CN105681478B (zh) * 2016-04-19 2019-01-22 北京高地信息技术有限公司 通过对网络资源调度提高网络爬虫抓取效率的方法和装置
CN105956175B (zh) * 2016-05-24 2017-09-05 考拉征信服务有限公司 网页内容爬取的方法和装置
CN106210050A (zh) * 2016-07-12 2016-12-07 安徽天达网络科技有限公司 一种智能反屏蔽网络爬虫系统
CN108446287A (zh) * 2017-02-16 2018-08-24 北京国双科技有限公司 网页爬取方法及装置
CN107317724B (zh) * 2017-06-06 2020-12-11 中证信用增进股份有限公司 基于云计算技术的数据采集系统及方法
CN110020043B (zh) * 2017-09-05 2021-07-30 北京国双科技有限公司 页面爬取方法、装置、存储介质及处理器
CN108040134A (zh) * 2017-12-06 2018-05-15 杭州迪普科技股份有限公司 一种dns透明代理的方法及装置
CN110661895A (zh) * 2018-06-29 2020-01-07 网宿科技股份有限公司 一种服务器的网络地址映射方法及网络地址映射设备
CN109857547A (zh) * 2019-01-04 2019-06-07 平安科技(深圳)有限公司 一种线程分配方法、装置及终端设备
CN110147271B (zh) * 2019-05-15 2020-04-28 重庆八戒传媒有限公司 提升爬虫代理质量的方法、装置及计算机可读存储介质
CN110798470B (zh) * 2019-10-31 2022-08-23 北京金堤科技有限公司 代理ip地址管理方法及系统
CN111083136B (zh) * 2019-12-12 2022-03-08 北京百分点科技集团股份有限公司 账号资源管理装置、方法及数据采集系统、方法
CN113297449A (zh) * 2021-05-21 2021-08-24 南京大学 一种流式爬虫实现方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1716243A (zh) * 2004-06-30 2006-01-04 马·研究公司 利用网络爬行者程序在网上进行价格收集的方法
CN102254027A (zh) * 2011-07-29 2011-11-23 四川长虹电器股份有限公司 批量获取网页内容的方法
WO2012031623A1 (en) * 2010-09-07 2012-03-15 Nokia Siemens Networks Oy Method and network devices for selecting between private addresses and public addresses within a user session

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1716243A (zh) * 2004-06-30 2006-01-04 马·研究公司 利用网络爬行者程序在网上进行价格收集的方法
WO2012031623A1 (en) * 2010-09-07 2012-03-15 Nokia Siemens Networks Oy Method and network devices for selecting between private addresses and public addresses within a user session
CN102254027A (zh) * 2011-07-29 2011-11-23 四川长虹电器股份有限公司 批量获取网页内容的方法

Also Published As

Publication number Publication date
CN103533097A (zh) 2014-01-22

Similar Documents

Publication Publication Date Title
CN103533097B (zh) 一种网络爬虫下载解析方法及装置
CN104541247B (zh) 用于调整云计算系统的系统和方法
CN103645939B (zh) 一种图片抓取的方法和系统
CN109948428A (zh) 面向传感信息处理的gpu集群深度学习边缘计算系统
Amoretti et al. DEUS: a discrete event universal simulator
CN107885777A (zh) 一种基于协作式爬虫的抓取网页数据的控制方法及系统
CN101222349A (zh) 收集web用户行为及性能数据的方法及系统
CN107145556B (zh) 通用的分布式采集系统
CN106506389A (zh) 网络请求异步处理方法及装置
Li et al. Optimizing energy of http requests in android applications
CN109614227A (zh) 任务资源调配方法、装置、电子设备及计算机可读介质
CN106547683B (zh) 一种冗余代码检测方法及装置
Wu et al. Modeling of distributed file systems for practical performance analysis
CN110516139A (zh) 爬虫系统及方法
CN106484775A (zh) 一种基于selenium的爬虫抓取方法及系统
CN108011931A (zh) Web数据采集方法和Web数据采集系统
CN111651656B (zh) 一种基于代工模式的动态网页爬虫方法及系统
CN114500110B (zh) 一种网络靶场并发流量动态生成系统及方法
Fabisiak et al. Browser-based harnessing of voluntary computational power
CN111061807A (zh) 分布式数据采集分析系统及方法、服务器及介质
RU2014131897A (ru) Способы и системы для поиска прикладных программ
CN113297449A (zh) 一种流式爬虫实现方法及系统
CN102736984B (zh) 保守垃圾收集方法和存储器管理设备
Xie et al. Modeling traffic of big data platform for large scale datacenter networks
CN105989151A (zh) 网页抓取方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant