CN106294364A - 实现网络爬虫抓取网页的方法和装置 - Google Patents

实现网络爬虫抓取网页的方法和装置 Download PDF

Info

Publication number
CN106294364A
CN106294364A CN201510250020.9A CN201510250020A CN106294364A CN 106294364 A CN106294364 A CN 106294364A CN 201510250020 A CN201510250020 A CN 201510250020A CN 106294364 A CN106294364 A CN 106294364A
Authority
CN
China
Prior art keywords
webpage
dormancy time
bunch
capturing
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510250020.9A
Other languages
English (en)
Other versions
CN106294364B (zh
Inventor
刘庆
张美德
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201510250020.9A priority Critical patent/CN106294364B/zh
Publication of CN106294364A publication Critical patent/CN106294364A/zh
Application granted granted Critical
Publication of CN106294364B publication Critical patent/CN106294364B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请实施例公开了实现网络爬虫抓取网页的方法。其中,预先将属于不同网站的网页划分到不同的网页簇中,和/或将属于相同网站中的不同产品的网页划分到不同的网页簇中;该方法包括:对于任意一个网页簇,统计当该网页簇的抓取成功率满足预设的置信水平时,该网页簇在抓取时的休眠时间的最小置信区间;在最小置信区间范围内配置该网页簇在抓取时的休眠时间;将配置的休眠时间通知给网络爬虫,以便网络爬虫按照配置的休眠时间抓取该网页簇中的网页。通过本申请,可以解决现有技术中在抓取不同网站中的网页或者抓取相同网站中的不同产品的网页时抓取成功率和抓取效率无法同时得到有效保障的问题。本申请实施例还公开了实现网络爬虫抓取网页的装置。

Description

实现网络爬虫抓取网页的方法和装置
技术领域
本申请涉及计算机应用领域,特别是涉及实现网络爬虫抓取网页的方法和装置。
背景技术
网络爬虫,又被称为网页蜘蛛或网络机器人,是一种按照既定规则自动抓取万维网网页的信息的程序或脚本。对于网络爬虫来说,其核心目标就是快速、准确地抓取源网页中的各类信息。在实际运行过程中,由于网络爬虫每一次抓取行为都是模拟用户的真实访问请求,因而网络爬虫的抓取行为会对源网页所在的服务器产生访问压力。如果抓取频率过高,就有可能导致相应的服务器的响应时间过长,甚至于内部出现错误,最终使抓取成功率降低。
因此,在现有技术中,当批量抓取网页时,为了避免对服务器造成过大的访问压力,在每一次抓取完毕后,会为网络爬虫设置一个休眠时间,而在该段休眠时间内,网络爬虫不抓取网页。这样,通过休眠时间,可以控制网络爬虫的抓取频率。
在实现本申请的过程中,本申请的发明人发现现有技术中至少存在如下问题:无论抓取哪个网站的网页,为网络爬虫设置的休眠时间都是一个通用、固定的数值,但是,不同的网站,甚至相同网站中的不同产品,其对外提供的访问能力都是不同的。如果采用一个通用、固定的休眠时间,对于不同的网站,或者相同网站的不同产品来说,就会产生抓取频率过高或过低的问题。如果抓取频率过高,会使影响网络爬虫的抓取成功率;而如果抓取频率过低,也会影响网络爬虫的抓取效率。
发明内容
为了解决上述技术问题,本申请实施例提供了实现网络爬虫抓取网页的方法和装置,以解决现有技术中由于休眠时间被设置为一个通用、固定的数值而导致网络爬虫在抓取不同网站中的网页或者抓取相同网站中的不同产品的网页时抓取成功率和抓取效率无法同时得到有效保障的问题。
本申请实施例公开了如下技术方案:
一种实现网络爬虫抓取网页的方法,预先将属于不同网站的网页划分到不同的网页簇中,和/或将属于相同网站中的不同产品的网页划分到不同的网页簇中;所述方法包括:
对于任意一个网页簇,统计当所述网页簇的抓取成功率满足预设的置信水平时,所述网页簇在抓取时的休眠时间的最小置信区间;
在所述最小置信区间的范围内配置所述网页簇在抓取时的休眠时间;
将配置的休眠时间通知给网络爬虫,以便网络爬虫按照配置的休眠时间抓取所述网页簇中的网页。
优选的,所述方法还包括:
将各个网页簇在抓取时的最小置信区间保存在数据库中。
优选的,所述对于任意一个网页簇,统计当所述网页簇的抓取成功率满足预设的置信水平时,所述网页簇在抓取时的休眠时间的最小置信区间,包括:
对于任意一个网页簇,从所述网页簇中选取预设数量的样本网页;
统计当所述样本网页的抓取成功率满足预设的置信水平时,所述样本网页在抓取时的休眠时间的最小置信区间;
根据所述样本网页在抓取时的休眠时间的最小置信区间,采用矩估计法估计所述网页簇在抓取时的休眠时间的最小置信区间。
优选的,所述统计当所述样本网页的抓取成功率满足预设的置信水平时,所述样本网页在抓取时的休眠时间的最小置信区间,包括:
从预设的休眠时间开始,采用二分法测试可使网页的抓取成功率满足预设的置信水平的最小休眠时间,直到当网页的抓取成功率第一次从达不到预设的置信水平转变为达到预设的置信水平时停止测试,并将停止测试时可使网页的抓取成功率满足预设的置信水平的最小休眠时间作为所述样本网页在抓取时的休眠时间的均值;
根据所述样本网页在抓取时的休眠时间的均值和预设的样本误差计算所述样本网页在抓取时的休眠时间的最小置信区间。
优选的,所述统计当所述样本网页的抓取成功率满足预设的置信水平时,所述样本网页在抓取时的休眠时间的最小置信区间,包括:
从预设的休眠时间开始,采用二分法测试可使网页的抓取成功率满足预设的置信水平的最小休眠时间,直到满足预设的停止条件时停止测试,并将停止测试时可使网页的抓取成功率满足预设的置信水平的最小休眠时间作为所述样本网页在抓取时的休眠时间的均值;
根据所述样本网页在抓取时的休眠时间的均值和预设的样本误差计算所述样本网页在抓取时的休眠时间的最小置信区间。
优选的,所述预设的停止条件包括当前的休眠时间的有效位数达到预设位数、测试时间达到预设时间和测试次数达到预设次数中的至少一个;并且,当包括至少两个条件时,所述至少两个条件中的任意一个条件先满足即停止测试。
一种实现网络爬虫抓取网页的装置,预先将属于不同网站的网页划分到不同的网页簇中,和/或将属于相同网站中的不同产品的网页划分到不同的网页簇中;所述装置包括:
统计单元,用于对于任意一个网页簇,统计当所述网页簇的抓取成功率满足预设的置信水平时,所述网页簇在抓取时的休眠时间的最小置信区间;
配置单元,用于在所述最小置信区间的范围内配置所述网页簇在抓取时的休眠时间;
通知单元,用于将配置的休眠时间通知给网络爬虫,以便网络爬虫按照配置的休眠时间抓取所述网页簇中的网页。
优选的,所述装置还包括:
保存单元,用于将各个网页簇在抓取时的休眠时间的最小置信区间保存在数据库中。
优选的,所述统计单元包括:
样本选取子单元,用于针对各个网页簇,从所述网页簇中选取预设数量的样本网页;
样本统计子单元,用于统计当所述样本网页的抓取成功率满足预设的置信水平时,所述样本网页在抓取时的休眠时间的最小置信区间;
估计子单元,用于根据所述样本网页在抓取时的休眠时间的最小置信区间,采用矩估计法估计所述网页簇在抓取时的休眠时间的最小置信区间。
优选的,所述样本统计子单元包括:
第一测试子单元,用于从预设的休眠时间开始,采用二分法测试可使网页的抓取成功率满足预设的置信水平的最小休眠时间,直到当网页的抓取成功率第一次从达不到预设的置信水平转变为达到预设的置信水平时停止测试,并将停止测试时可使网页的抓取成功率满足预设的置信水平的最小休眠时间作为所述样本网页在抓取时的休眠时间的均值;
计算子单元,用于根据所述样本网页在抓取时的休眠时间的均值和预设的样本误差计算所述样本网页在抓取时的休眠时间的最小置信区间。
优选的,所述样本统计子单元包括:
第二测试子单元,用于从预设的休眠时间开始,采用二分法测试可使网页的抓取成功率满足预设的置信水平的最小休眠时间,直到满足预设的停止条件时停止测试,并将停止测试时可使网页的抓取成功率满足预设的置信水平的最小休眠时间作为所述样本网页在抓取时的休眠时间的均值;
计算子单元,用于根据所述样本网页在抓取时的休眠时间的均值和预设的样本误差计算所述样本网页在抓取时的休眠时间的最小置信区间。
优选的,所述预设的停止条件包括当前的休眠时间的有效位数达到预设位数、测试时间达到预设时间和测试次数达到预设次数中的至少一个;并且,当包括至少两个条件时,所述至少两个条件中的任意一个条件先满足即停止测试。
由上述实施例可以看出,与现有技术相比,本申请的优点在于:
先将属于不同网站的网页划分到不同的网页簇中,和/或将属于相同网站中的不同产品的网页划分到不同的网页簇,然后以网页簇为单位,依次统计当各个网页簇的抓取成功率满足预设的置信水平时,各个网页簇在抓取时的休眠时间的最小置信区间,并在最小置信区间的范围内配置各个网页簇在抓取时的休眠时间。不仅为不同网站的网页或者相同网站中的不同产品的网页配置不同的休眠时间,同时,只要在各自的最小置信区间的范围内配置各个网页簇在抓取时的休眠时间,当网络爬虫以该配置的休眠时间批量抓取该网页簇时,就可以既保证抓取成功率满足用户要求的置信水平,又保证抓取效率最高。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1示意性地示出了本申请的实施方式可以在其中实施的示例性应用场景;
图2示意性地示出了根据本申请实施例的一种实现网络爬虫抓取网页的方法的流程图;
图3示意性地示出了根据本申请实施例的一种估计网页簇在抓取时的休眠时间的最小置信区间的方法的流程图;
图4示意性地示出了根据本申请实施例的一种采用二分法实现抓取测试的方法流程图;
图5示意性地示出了根据本申请实施例的另一种采用二分法实现抓取测试的方法流程图;
图6示意性地示出了根据本申请实施例的一种实现网络爬虫抓取网页的装置的结构框图;
图7示意性地示出了根据本申请实施例的另一种实现网络爬虫抓取网页的装置的结构框图;
图8示意性地示出了根据本申请实施例的一种统计单元的结构框图;
图9示意性地示出了根据本申请实施例的一种样本统计子单元的结构框图;
图10示意性地示出了根据本申请实施例的另一种样本统计子单元的结构框图。
具体实施方式
首先参考图1,图1示意性地示出了本申请的实施方式可以在其中实施的示例性应用场景。其中,用户10向配置文件生成服务器20发送需要批量抓取的网页的URL簇11和各种预设的参数12(如,置信水平),配置文件生成服务器20根据URL簇11和各种预设的参数12生成配置文件13,并将配置文件13发送给抓取控制服务器30,抓取控制服务器30从配置文件13中解析出URL簇11和各种预设的参数12,并根据各种预设的参数12确定URL簇11在抓取时的休眠时间的最小估置信间31,并将URL簇11在抓取时的休眠时间的最小置信区间31保存在存储服务器40中。当产生对URL簇11的抓取任务时,抓取控制服务器30从存储服务器40中读取URL簇11在抓取时的休眠时间的最小置信区间31,在最小置信区间31的范围内随机选取一个数值用来配置URL簇11在抓取时的休眠时间32,将配置的休眠时间通知给网页抓取服务器集群50(即,网络爬虫),并由网页抓取服务器集群50按照配置的休眠时间32批量抓取URL簇11,并在抓取过程中生成爬虫日志。监控服务器60对爬虫日志进行监控,包括对批量抓取过程中各类异常进行统计,以校验在存储服务器40中保存的URL簇11在抓取时的休眠时间的最小置信区间31的准确性。另外,还会监测URL簇11所属网站的服务器的可用性和响应时间,以确认该网站服务器是否正常。本领域技术人员可以理解,图1所示的示意图仅是本申请的实施方式可以在其中得以实现的一个示例。本申请实施方式的应用范围不受到该框架任何方面的限制。例如,配置文件生成服务器20和抓取控制服务器30可以合并为同一个服务器。
为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图对本申请实施例进行详细描述。
方法实施例
请参阅图2,图2示意性地示出了根据本申请实施例的一种实现网络爬虫抓取网页的方法的流程图,例如,该方法可以由抓取控制服务30执行,该方法可以包括以下步骤:
步骤201:对于任意一个网页簇,统计当所述网页簇的抓取成功率满足预设的置信水平时,所述网页簇在抓取时的休眠时间的最小置信区间;其中,预先将属于不同网站的网页划分到不同的网页簇中,和/或将属于相同网站中的不同产品的网页划分到不同的网页簇中。
步骤202:在所述最小置信区间的范围内配置所述网页簇在抓取时的休眠时间。
步骤203:将配置的休眠时间通知给网络爬虫,以便网络爬虫按照配置的休眠时间抓取所述网页簇中的网页。
由于不同的网站,甚至相同网站中的不同产品,其对外提供的访问能力都是不同的,因此,在本申请中,根据网页所属网站的不同,将属于不同网站的网页划分到不同的网页簇中,以使得不同网页簇中的网页属于不同网站,同一个网页簇中的网页属于相同网站。或者,对于属于相同网站的网页,根据网页所属产品的不同,将属于相同网站中的不同产品的网页划分到不同的网页簇中,以使得不同网页簇中的网页属于相同网站中的不同产品,同一个网页簇中的网页属于相同网站中的相同产品。
这样,在划分出各个网页簇后,就可以基于各个网页簇,依次统计当各个网页簇的抓取成功率满足预设的置信水平时,各个网页簇在抓取时的休眠时间的最小置信区间。对于任意一个网页簇,只要在其最小置信区间的范围内配置该网页簇在抓取时的休眠时间,当网络爬虫以该配置的休眠时间批量抓取该网页簇时,就可以在保证抓取成功率满足用户要求的置信水平的同时,还可以保证抓取效率最高。
其中,在统计学中,“置信区间”展示的是某一个总体参数值以一定概率落在样本统计值的周围的程度,“一定概率”即为置信水平。
例如,假设在某一个网页簇中包含有300个网页(当然,实际情况的网页数量级会更大),预设的置信水平为0.9,当休眠时间在其最小置信区间的范围内随机选取时,300个网页中有300×0.9=270个以上的网页可以被成功抓取。
需要说明的是,在本申请的技术方案中,置信水平的具体数值可以由用户根据各自对抓取成功率的需求进行自由设定。例如,用户先根据自己的需求设置好置信水平,然后再发送给配置文件生成服务器20,用于生成配置文件。
在本申请的一个优选实施方式中,先采用样本统计的方法统计出网页簇中的样本网页在抓取时的休眠时间的最小置信区间,并且,为了减小样本统计值与总体参数值之间的误差,再利用矩估计法估计网页簇在抓取时的休眠时间的最小置信区间。如图3所示,上述步骤201具体可以包括:
步骤2011:对于任意一个网页簇,从所述网页簇中选取预设数量的样本网页。
步骤2012:统计当所述样本网页的抓取成功率满足预设的置信水平时,所述样本网页在抓取时的休眠时间的最小置信区间。
步骤2013:根据所述样本网页在抓取时的休眠时间的最小置信区间,采用矩估计法估计所述网页簇在抓取时的休眠时间的最小置信区间。
其中,样本网页的数量可以由用户预先设定,例如,用户先设置好样本网页的数量,然后再发送给配置文件生成服务器20,用于生成配置文件。如果用户没有设定,也可以采用系统默认值。
“矩估计法”就是利用样本矩来估计总体中的相应参数的方法。例如,最简单的矩估计法就是用样本的一阶原点矩估计总体的期望值,用样本的二阶中心矩估计总体的方差。
需要说明的是,在本申请中,除了图3所示的实现方式,还可以先统计出当样本网页的抓取成功率满足预设的置信水平时,样本网页在抓取时的休眠时间的最小均值,再根据样本网页在抓取时的休眠时间的最小均值,采用矩估计法估计网页簇在抓取时的休眠时间的最小均值,最后根据网页簇在抓取时的休眠时间的最小均值和预设的样本误差计算网页簇在抓取时的休眠时间的最小置信区间。
例如,网页簇在抓取时的休眠时间的最小均值是E,预设的样本误差为X﹪,网页簇在抓取时的休眠时间的最小置信区间即为[E×(1-X﹪),E×(1+X﹪)]。
其中,需要说明的是,样本误差是由用户预先设定的,例如,用户先设置好样本误差,然后再发送给配置文件生成服务器20,用于生成配置文件。如果用户没有预先设定,也可以采用系统默认值。
一般情况下,100个样本的样本误差为±10﹪,500个样本的样本误差为±5﹪,1000个样本的样本误差为±2﹪。
在本申请的另一个优选实施方式中,提供了一种统计样本网页在抓取时的休眠时间的最小置信区间的方法。其中包括:先从预设的休眠时间开始,采用二分法测试可使网页的抓取成功率满足预设的置信水平的最小休眠时间,直到当网页的抓取成功率第一次从达不到预设的置信水平转变为达到预设的置信水平时停止测试,并将停止测试时可使网页的抓取成功率满足预设的置信水平的最小休眠时间作为所述样本网页在抓取时的休眠时间的均值;再根据所述样本网页在抓取时的休眠时间的均值和预设的样本误差计算所述样本网页在抓取时的休眠时间的最小置信区间。
例如,如图4所示,具体的实现测试流程如下:
步骤401:将用户预设的休眠时间作为当前的休眠时间;
步骤402:按照当前的休眠时间对样本网页进行批量抓取测试;
步骤403:判断样本网页的抓取成功率是否满足预设的置信水平,如果是,进入步骤404,否则,进入步骤405;
步骤404:计算上一次抓取时的休眠时间的二分之一,并作为当前的休眠时间,返回步骤402;
步骤405:计算上一次抓取时的休眠时间的二分之三,并作为当前的休眠时间;
步骤406:按照当前的休眠时间对样本网页进行批量抓取测试;
步骤407:判断样本网页的抓取成功率是否满足预设的置信水平,如果否,返回步骤405,如果是,进入步骤408;
步骤408:停止抓取测试,将最后一次抓取测试时的休眠时间作为网页样本在抓取时的休眠时间的均值;
步骤409:根据样本网页在抓取时的休眠时间的均值和预设的样本误差计算样本网页在抓取时的休眠时间的最小置信区间。
另外,在本申请的另一个优选实施方式中,还提供了另一种提供了一种统计样本网页在抓取时的休眠时间的最小置信区间的方法。其中包括:从预设的休眠时间开始,采用二分法测试可使网页的抓取成功率满足预设的置信水平的最小休眠时间,直到满足预设的停止条件时停止测试,并将停止测试时可使网页的抓取成功率满足预设的置信水平的最小休眠时间作为所述样本网页在抓取时的休眠时间的均值;根据所述样本网页在抓取时的休眠时间的均值和预设的样本误差计算所述样本网页在抓取时的休眠时间的最小置信区间。
所述预设的停止条件包括:当前的休眠时间的有效位数达到预设位数、测试时间达到预设时间和测试次数达到预设次数中的至少一个;并且,当包括至少两个条件时,所述至少两个条件中的任意一个条件先满足即停止测试。
例如,以预设的停止条件为当前的休眠时间的有效位数达到预设位数为例,如图5所示,具体的实现测试流程如下:
步骤501:将用户预设的休眠时间作为当前的休眠时间;
步骤502:按照当前的休眠时间对样本网页进行批量抓取测试;
步骤503:判断样本网页的抓取成功率是否满足预设的置信水平,如果是,进入步骤504,否则,进入步骤506;
步骤504:判断当前的休眠时间的有效位数是否达到预设位数,如果是,进入步骤507,否则,进入步骤505:
步骤505:计算上一次抓取时的休眠时间的二分之一,并作为当前的休眠时间,返回步骤502;
步骤506:计算上一次抓取时的休眠时间的二分之三,并作为当前的休眠时间,返回步骤502;
步骤507:停止抓取测试,将最后一次抓取测试时的休眠时间作为网页样本在抓取时的休眠时间的均值;
步骤508:根据样本网页在抓取时的休眠时间的均值和预设的样本误差计算样本网页在抓取时的休眠时间的最小置信区间。
需要说明的是,当预设的停止条件为测试时间达到预设时间或测试次数达到预设次数时,在上述步骤504中可以判断测试时间是否达到预设时间,或者,判断测试次数是否达到预设次数。当然,当预设的停止条件包括三个条件中的至少两个条件时,在上述步骤504中也可以同时对所有的停止条件进行判断,其中,只要任意一个条件满足即可进入步骤507,如果都不满足,进入步骤505。
在本申请的另一个优选实施方式中,还可以将各个网页簇在抓取时的最小置信区间保存在数据库中,如,存储服务器40中。以便于以后当产生对某一个网页簇的抓取任务时,抓取控制服务器30可以从数据库中读取相应的网页簇在抓取时的最小置信区间,并从中随机选取网页簇在抓取时的休眠时间。另外,也便于监测服务器60对存储服务器40中保存的各个网页簇在抓取时的休眠时间的最小置信区间的准确性进行检验。
由上述实施例可以看出,与现有技术相比,本申请的优点在于:
先将属于不同网站的网页划分到不同的网页簇中,和/或将属于相同网站中的不同产品的网页划分到不同的网页簇,然后以网页簇为单位,依次统计当各个网页簇的抓取成功率满足预设的置信水平时,各个网页簇在抓取时的休眠时间的最小置信区间,并在最小置信区间的范围内配置各个网页簇在抓取时的休眠时间。不仅为不同网站的网页或者相同网站中的不同产品的网页配置不同的休眠时间,同时,只要在各自的最小置信区间的范围内配置各个网页簇在抓取时的休眠时间,当网络爬虫以该配置的休眠时间批量抓取该网页簇时,就可以既保证抓取成功率满足用户要求的置信水平,又保证抓取效率最高。
装置实施例
与上述一种实现网络爬虫抓取网页的方法相对应,本申请实施例还提供了一种实现网络爬虫抓取网页的装置。请参阅图6,图6示意性地示出了根据本申请实施例的一种实现网络爬虫抓取网页的装置的结构框图,该装置包括:统计单元601、配置单元602和通知单元603。下面结合该装置的工作原理进一步介绍其内部结构以及连接关系。
统计单元601,用于对于任意一个网页簇,统计当所述网页簇的抓取成功率满足预设的置信水平时,所述网页簇在抓取时的休眠时间的最小置信区间;其中,预先将属于不同网站的网页划分到不同的网页簇中,和/或将属于相同网站中的不同产品的网页划分到不同的网页簇中。
配置单元602,用于在所述最小置信区间的范围内配置所述网页簇在抓取时的休眠时间。
通知单元603,用于将配置的休眠时间通知给网络爬虫,以便网络爬虫按照配置的休眠时间抓取所述网页簇中的网页。
在本申请的一个优选实施方式中,如图7所示,该装置还包括:
保存单元604,用于将各个网页簇在抓取时的休眠时间的最小置信区间保存在数据库中。
在本申请的另一个优选实施方式中,如图8所示,统计单元601包括:
样本选取子单元6011,用于针对各个网页簇,从所述网页簇中选取预设数量的样本网页;
样本统计子单元6012,用于统计当所述样本网页的抓取成功率满足预设的置信水平时,所述样本网页在抓取时的休眠时间的最小置信区间;
估计子单元6013,用于根据所述样本网页在抓取时的休眠时间的最小置信区间,采用矩估计法估计所述网页簇在抓取时的休眠时间的最小置信区间。
在本申请的另一个优选实施方式中,如图9所示,样本统计子单元6011包括:
第一测试子单元6011-A1,用于从预设的休眠时间开始,采用二分法测试可使网页的抓取成功率满足预设的置信水平的最小休眠时间,直到当网页的抓取成功率第一次从达不到预设的置信水平转变为达到预设的置信水平时停止测试,并将停止测试时可使网页的抓取成功率满足预设的置信水平的最小休眠时间作为所述样本网页在抓取时的休眠时间的均值;
计算子单元6011-B,用于根据所述样本网页在抓取时的休眠时间的均值和预设的样本误差计算所述样本网页在抓取时的休眠时间的最小置信区间。
或者,作为替换方案,如图10所示,样本统计子单元6011包括:
第二测试子单元6011-A2,用于从预设的休眠时间开始,采用二分法测试可使网页的抓取成功率满足预设的置信水平的最小休眠时间,直到满足预设的停止条件时停止测试,并将停止测试时可使网页的抓取成功率满足预设的置信水平的最小休眠时间作为所述样本网页在抓取时的休眠时间的均值;
计算子单元6011-B,用于根据所述样本网页在抓取时的休眠时间的均值和预设的样本误差计算所述样本网页在抓取时的休眠时间的最小置信区间。
在本申请的另一个优选实施方式中,所述预设的停止条件包括当前的休眠时间的有效位数达到预设位数、测试时间达到预设时间和测试次数达到预设次数中的至少一个;并且,当包括至少两个条件时,所述至少两个条件中的任意一个条件先满足即停止测试。
由上述实施例可以看出,与现有技术相比,本申请的优点在于:
先将属于不同网站的网页划分到不同的网页簇中,和/或将属于相同网站中的不同产品的网页划分到不同的网页簇,然后以网页簇为单位,依次统计当各个网页簇的抓取成功率满足预设的置信水平时,各个网页簇在抓取时的休眠时间的最小置信区间,并在最小置信区间的范围内配置各个网页簇在抓取时的休眠时间。不仅为不同网站的网页或者相同网站中的不同产品的网页配置不同的休眠时间,同时,只要在各自的最小置信区间的范围内配置各个网页簇在抓取时的休眠时间,当网络爬虫以该配置的休眠时间批量抓取该网页簇时,就可以既保证抓取成功率满足用户要求的置信水平,又保证抓取效率最高。
所述领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述到的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性、机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,可以采用软件功能单元的形式实现。
需要说明的是,本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
以上对本申请所提供的实现网络爬虫抓取网页的方法和装置进行了详细介绍,本文中应用了具体实施例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (12)

1.一种实现网络爬虫抓取网页的方法,其特征在于,预先将属于不同网站的网页划分到不同的网页簇中,和/或将属于相同网站中的不同产品的网页划分到不同的网页簇中;所述方法包括:
对于任意一个网页簇,统计当所述网页簇的抓取成功率满足预设的置信水平时,所述网页簇在抓取时的休眠时间的最小置信区间;
在所述最小置信区间的范围内配置所述网页簇在抓取时的休眠时间;
将配置的休眠时间通知给网络爬虫,以便网络爬虫按照配置的休眠时间抓取所述网页簇中的网页。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
将各个网页簇在抓取时的最小置信区间保存在数据库中。
3.根据权利要求1或2所述的方法,其特征在于,所述对于任意一个网页簇,统计当所述网页簇的抓取成功率满足预设的置信水平时,所述网页簇在抓取时的休眠时间的最小置信区间,包括:
对于任意一个网页簇,从所述网页簇中选取预设数量的样本网页;
统计当所述样本网页的抓取成功率满足预设的置信水平时,所述样本网页在抓取时的休眠时间的最小置信区间;
根据所述样本网页在抓取时的休眠时间的最小置信区间,采用矩估计法估计所述网页簇在抓取时的休眠时间的最小置信区间。
4.根据权利要求3所述的方法,其特征在于,所述统计当所述样本网页的抓取成功率满足预设的置信水平时,所述样本网页在抓取时的休眠时间的最小置信区间,包括:
从预设的休眠时间开始,采用二分法测试可使网页的抓取成功率满足预设的置信水平的最小休眠时间,直到当网页的抓取成功率第一次从达不到预设的置信水平转变为达到预设的置信水平时停止测试,并将停止测试时可使网页的抓取成功率满足预设的置信水平的最小休眠时间作为所述样本网页在抓取时的休眠时间的均值;
根据所述样本网页在抓取时的休眠时间的均值和预设的样本误差计算所述样本网页在抓取时的休眠时间的最小置信区间。
5.根据权利要求3所述的方法,其特征在于,所述统计当所述样本网页的抓取成功率满足预设的置信水平时,所述样本网页在抓取时的休眠时间的最小置信区间,包括:
从预设的休眠时间开始,采用二分法测试可使网页的抓取成功率满足预设的置信水平的最小休眠时间,直到满足预设的停止条件时停止测试,并将停止测试时可使网页的抓取成功率满足预设的置信水平的最小休眠时间作为所述样本网页在抓取时的休眠时间的均值;
根据所述样本网页在抓取时的休眠时间的均值和预设的样本误差计算所述样本网页在抓取时的休眠时间的最小置信区间。
6.根据权利要求5所述的方法,其特征在于,所述预设的停止条件包括当前的休眠时间的有效位数达到预设位数、测试时间达到预设时间和测试次数达到预设次数中的至少一个;并且,当包括至少两个条件时,所述至少两个条件中的任意一个条件先满足即停止测试。
7.一种实现网络爬虫抓取网页的装置,其特征在于,预先将属于不同网站的网页划分到不同的网页簇中,和/或将属于相同网站中的不同产品的网页划分到不同的网页簇中;所述装置包括:
统计单元,用于对于任意一个网页簇,统计当所述网页簇的抓取成功率满足预设的置信水平时,所述网页簇在抓取时的休眠时间的最小置信区间;
配置单元,用于在所述最小置信区间的范围内配置所述网页簇在抓取时的休眠时间;
通知单元,用于将配置的休眠时间通知给网络爬虫,以便网络爬虫按照配置的休眠时间抓取所述网页簇中的网页。
8.根据权利要求7所述的装置,其特征在于,所述装置还包括:
保存单元,用于将各个网页簇在抓取时的休眠时间的最小置信区间保存在数据库中。
9.根据权利要求7或8所述的装置,其特征在于,所述统计单元包括:
样本选取子单元,用于针对各个网页簇,从所述网页簇中选取预设数量的样本网页;
样本统计子单元,用于统计当所述样本网页的抓取成功率满足预设的置信水平时,所述样本网页在抓取时的休眠时间的最小置信区间;
估计子单元,用于根据所述样本网页在抓取时的休眠时间的最小置信区间,采用矩估计法估计所述网页簇在抓取时的休眠时间的最小置信区间。
10.根据权利要求9所述的装置,其特征在于,所述样本统计子单元包括:
第一测试子单元,用于从预设的休眠时间开始,采用二分法测试可使网页的抓取成功率满足预设的置信水平的最小休眠时间,直到当网页的抓取成功率第一次从达不到预设的置信水平转变为达到预设的置信水平时停止测试,并将停止测试时可使网页的抓取成功率满足预设的置信水平的最小休眠时间作为所述样本网页在抓取时的休眠时间的均值;
计算子单元,用于根据所述样本网页在抓取时的休眠时间的均值和预设的样本误差计算所述样本网页在抓取时的休眠时间的最小置信区间。
11.根据权利要求9所述的装置,其特征在于,所述样本统计子单元包括:
第二测试子单元,用于从预设的休眠时间开始,采用二分法测试可使网页的抓取成功率满足预设的置信水平的最小休眠时间,直到满足预设的停止条件时停止测试,并将停止测试时可使网页的抓取成功率满足预设的置信水平的最小休眠时间作为所述样本网页在抓取时的休眠时间的均值;
计算子单元,用于根据所述样本网页在抓取时的休眠时间的均值和预设的样本误差计算所述样本网页在抓取时的休眠时间的最小置信区间。
12.根据权利要求11所述的装置,其特征在于,所述预设的停止条件包括当前的休眠时间的有效位数达到预设位数、测试时间达到预设时间和测试次数达到预设次数中的至少一个;并且,当包括至少两个条件时,所述至少两个条件中的任意一个条件先满足即停止测试。
CN201510250020.9A 2015-05-15 2015-05-15 实现网络爬虫抓取网页的方法和装置 Active CN106294364B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510250020.9A CN106294364B (zh) 2015-05-15 2015-05-15 实现网络爬虫抓取网页的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510250020.9A CN106294364B (zh) 2015-05-15 2015-05-15 实现网络爬虫抓取网页的方法和装置

Publications (2)

Publication Number Publication Date
CN106294364A true CN106294364A (zh) 2017-01-04
CN106294364B CN106294364B (zh) 2020-04-10

Family

ID=57631806

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510250020.9A Active CN106294364B (zh) 2015-05-15 2015-05-15 实现网络爬虫抓取网页的方法和装置

Country Status (1)

Country Link
CN (1) CN106294364B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107291824A (zh) * 2017-05-25 2017-10-24 北京小度信息科技有限公司 数据抓取方法及装置
CN108345615A (zh) * 2017-01-23 2018-07-31 阿里巴巴集团控股有限公司 一种页面链接的投放和投放调整方法及系统
CN108415845A (zh) * 2018-03-28 2018-08-17 北京达佳互联信息技术有限公司 Ab测试系统指标置信区间的计算方法、装置和服务器
CN109257317A (zh) * 2017-07-12 2019-01-22 武汉安天信息技术有限责任公司 一种移动互联网钓鱼网站检测方法及装置

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101042709A (zh) * 2007-04-11 2007-09-26 芦树鹏 主动式搜索
CN101178713A (zh) * 2006-11-29 2008-05-14 腾讯科技(深圳)有限公司 一种采集网页的方法及系统
CN101739427A (zh) * 2008-11-10 2010-06-16 中国移动通信集团公司 一种爬虫抓取的方法及其装置
CN102043862A (zh) * 2010-12-29 2011-05-04 重庆新媒农信科技有限公司 网页数据定向抓取方法
CN102609456A (zh) * 2012-01-12 2012-07-25 凤凰在线(北京)信息技术有限公司 一种文章实时智能抓取系统和方法
CN102790700A (zh) * 2011-05-19 2012-11-21 北京启明星辰信息技术股份有限公司 一种识别网页爬虫的方法和装置
CN102880607A (zh) * 2011-07-15 2013-01-16 舆情(香港)有限公司 网络动态内容抓取方法及网络动态内容爬虫系统
CN103092999A (zh) * 2013-02-22 2013-05-08 人民搜索网络股份公司 一种网页抓取周期调整方法和装置
CN103778165A (zh) * 2012-10-26 2014-05-07 广州市邦富软件有限公司 一种蜘蛛调度中心采集动态调整算法
US8782032B2 (en) * 2004-08-30 2014-07-15 Google Inc. Minimizing visibility of stale content in web searching including revising web crawl intervals of documents
US8868541B2 (en) * 2011-01-21 2014-10-21 Google Inc. Scheduling resource crawls

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8782032B2 (en) * 2004-08-30 2014-07-15 Google Inc. Minimizing visibility of stale content in web searching including revising web crawl intervals of documents
CN101178713A (zh) * 2006-11-29 2008-05-14 腾讯科技(深圳)有限公司 一种采集网页的方法及系统
CN101042709A (zh) * 2007-04-11 2007-09-26 芦树鹏 主动式搜索
CN101739427A (zh) * 2008-11-10 2010-06-16 中国移动通信集团公司 一种爬虫抓取的方法及其装置
CN102043862A (zh) * 2010-12-29 2011-05-04 重庆新媒农信科技有限公司 网页数据定向抓取方法
US8868541B2 (en) * 2011-01-21 2014-10-21 Google Inc. Scheduling resource crawls
CN102790700A (zh) * 2011-05-19 2012-11-21 北京启明星辰信息技术股份有限公司 一种识别网页爬虫的方法和装置
CN102880607A (zh) * 2011-07-15 2013-01-16 舆情(香港)有限公司 网络动态内容抓取方法及网络动态内容爬虫系统
CN102609456A (zh) * 2012-01-12 2012-07-25 凤凰在线(北京)信息技术有限公司 一种文章实时智能抓取系统和方法
CN103778165A (zh) * 2012-10-26 2014-05-07 广州市邦富软件有限公司 一种蜘蛛调度中心采集动态调整算法
CN103092999A (zh) * 2013-02-22 2013-05-08 人民搜索网络股份公司 一种网页抓取周期调整方法和装置

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108345615A (zh) * 2017-01-23 2018-07-31 阿里巴巴集团控股有限公司 一种页面链接的投放和投放调整方法及系统
CN107291824A (zh) * 2017-05-25 2017-10-24 北京小度信息科技有限公司 数据抓取方法及装置
CN109257317A (zh) * 2017-07-12 2019-01-22 武汉安天信息技术有限责任公司 一种移动互联网钓鱼网站检测方法及装置
CN109257317B (zh) * 2017-07-12 2021-07-20 武汉安天信息技术有限责任公司 一种移动互联网钓鱼网站检测方法及装置
CN108415845A (zh) * 2018-03-28 2018-08-17 北京达佳互联信息技术有限公司 Ab测试系统指标置信区间的计算方法、装置和服务器

Also Published As

Publication number Publication date
CN106294364B (zh) 2020-04-10

Similar Documents

Publication Publication Date Title
CN109005085A (zh) 一种服务可用性监控系统、方法、装置及设备
CN106294364A (zh) 实现网络爬虫抓取网页的方法和装置
CN109947641A (zh) 自动化测试方法及装置
CN112241350B (zh) 微服务评估方法、装置、计算设备及微服务检测系统
CN104408640B (zh) 应用软件推荐方法及装置
CN106610896A (zh) 一种自适应压力测试的方法及装置
CN112491654B (zh) 一种性能测试方法、装置、电子设备及存储介质
CN109510744A (zh) 物联设备智能接入方法和装置
CN111782317A (zh) 页面的测试方法和装置、存储介质和电子装置
CN107943697A (zh) 问题分配方法、装置、系统、服务器和计算机存储介质
CN104572448A (zh) 一种线程堆栈的使用情况的实现方法和装置
CN105677533B (zh) 应用进程监控方法及应用进程监控装置
CN112148607B (zh) 一种业务场景的接口测试方法和装置
CN109582418A (zh) 用户行为数据收集方法、装置、计算机装置、存储介质
CN106357480A (zh) 监测应用的网络性能的方法、装置及移动终端
CN111159029B (zh) 自动化测试方法、装置、电子设备及计算机可读存储介质
CN108595312A (zh) 一种模拟用户行为的性能自动化方法及装置
CN108733545A (zh) 一种压力测试方法及装置
CN110232020A (zh) 基于智能决策的测试结果分析方法及相关装置
CN109359034A (zh) 一种业务系统测试方法、计算机可读存储介质及终端设备
CN111324644A (zh) 大型微服务架构下的数据库连接风暴的监控方法及装置
CN110888811B (zh) 代码覆盖率信息处理方法、装置、电子设备及介质
CN110598797B (zh) 故障的检测方法及装置、存储介质和电子装置
CN106598793B (zh) 一种基于BIOS串口log数据的测试系统及测试方法
CN111376255B (zh) 机器人数据采集方法、装置及终端设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant