CN103336834A

CN103336834A - 一种网页爬虫抓取方法及装置

Info

Publication number: CN103336834A
Application number: CN2013102915208A
Authority: CN
Inventors: 周东
Original assignee: Beijing Jingdong Shangke Information Technology Co Ltd
Current assignee: Beijing Jingdong Shangke Information Technology Co Ltd
Priority date: 2013-07-11
Filing date: 2013-07-11
Publication date: 2013-10-02
Anticipated expiration: 2033-07-11
Also published as: CN103336834B

Abstract

本发明涉及互联网搜索领域，特别是一种网页爬虫抓取方法及装置。主要技术方案包括：根据给定的搜索条件及生成种子数，生成至少一个满足搜索条件的网页地址，所述网页地址的生成数量与所述生成种子数相同；对所述网页地址进行数据抓取，得到抓取网页内容；根据抓取网页内容，确定满足预设统计条件的网页地址数量的统计结果；根据所述统计结果修改所述生成种子数。由于生成种子数确定了生成网页地址的数量，而对抓取网页内容进行统计后重新修改生成种子数，形成一种迭代方式。对于一个给定的搜索条件，其生成种子数能自动调节并适应该搜索条件。通过设定合适的统计条件，能最大程度地减少因处理不合适的数据所造成的资源浪费。

Description

一种网页爬虫抓取方法及装置

技术领域

本发明涉及互联网搜索领域，特别是一种网页爬虫抓取方法及装置。

背景技术

现有的网页爬虫抓取技术，主要是通过对互联网信息进行搜索，将符合搜索条件的信息从海量的网页信息中抓取出来。例如，对舆情的数据抓取主要是通过搜索等各大搜索引擎网站以及各大微博网站，采用网页爬虫抓取技术抓取。网页爬虫抓取技术，首先需要生成对应网页地址（URL，Uniform Resource Locator）的种子，然后程序访问种子对应的网页地址，抓取网页内容。种子生成常规的方法有几种方式供选择。第一种,通过自我衍生的方式，用程序遍历一个关键词的所有搜索列表页进行全部抓取。第二种方式，人工预估一个确定的生成种子数n，只抓取关键词的搜索列表页的前n页。

但是这两种方式对于实时性要求较高的数据抓取来说都存在弊端。采用第一种方式会把很久以前的数据抓取出来，但是这些老数据不是客户需要的。同时这种方式不灵活，逻辑较为复杂，特别是当搜索的数据量较多时，对资源的浪费极大。如果采用第二种方式，也存在一个弊端，不同的关键词，搜索出来的新闻或者微博列表页的数是不同的。有的可以搜索出数百页，而有的只能搜索出几页。那这种情况下，无论人工将生成种子数定成多少值，都是不科学的。

发明内容

基于此，有必要针对现有的网页爬虫抓取技术对于生成种子数不能根据实际搜索情况进行适应性变化的技术问题，提供一种网页爬虫抓取方法及装置。

一种网页爬虫抓取方法，包括：

根据给定的搜索条件及生成种子数，生成至少一个满足搜索条件的网页地址，所述网页地址的生成数量与所述生成种子数相同;

对所述网页地址进行数据抓取，得到抓取网页内容；

根据抓取网页内容，确定满足预设统计条件的网页地址数量的统计结果；

根据所述统计结果修改所述生成种子数。

一种网页爬虫抓取装置，包括：

网页地址生成模块，用于根据给定的搜索条件及生成种子数，生成至少一个满足搜索条件的网页地址，所述网页地址的生成数量与所述生成种子数相同;

网页内容抓取模块，用于对所述网页地址进行数据抓取，得到抓取网页内容；

统计结果获取模块，用于根据抓取网页内容，确定满足预设统计条件的网页地址数量的统计结果；

生成种子数修改模块，用于根据所述统计结果修改所述生成种子数。

通过上述技术方案，本发明采用生成种子数确定生成网页地址的数量，并对网页地址进行数据抓取，得到抓取网页内容，对抓取网页内容进行统计，根据统计结果修改生成种子数。由于生成种子数确定了生成网页地址的数量，而对抓取网页内容进行统计后重新修改生成种子数，形成一种迭代方式。对于一个给定的搜索条件，其生成种子数能自动调节并适应该搜索条件。通过设定合适的统计条件，能最大程度地减少因处理不合适的数据所造成的资源浪费。

附图说明

图1为本发明实施例中网页爬虫抓取的工作流程图；

图2为本发明实施例中网页抓取的有效网页内容；

图3为本发明实施例中网页抓取的无效网页内容；

图4为本发明实施例中网页爬虫抓取的装置示意图。

具体实施方式

下面结合附图和具体实施例对本发明做进一步详细的说明。

本发明的一个实施例中，提出了一种网页爬虫抓取方法，如图1所示，包括如下步骤：

步骤S101，根据给定的搜索条件及生成种子数，生成至少一个满足搜索条件的网页地址，所述网页地址的生成数量与所述生成种子数相同。

该步骤中，搜索条件可以为单个关键词或者多个关键词的组合形成的搜索条件。满足搜索条件的网页地址的方式可以采用现有的各种网页地址生成方式。

示例：

抓取网站地址：http://news.baidu.com/

示例关键词：key=“京东618”

预估生成种子数:n=100

根据key值与n值以及baidu地址产生的搜索地址，拼接如下100个网页地址：

http://news.baidu.com/ns?bt=0&et=0&si=&rn=20&tn=news&ie=gb2312&ct=1&word=%BE%A9%B6%AB618&pn=0&cl=2

http://news.baidu.com/ns?bt=0&et=0&si=&rn=20&tn=news&ie=gb2312&ct=1&word=%BE%A9%B6%AB618&pn=20&cl=2

……

http://news.baidu.com/ns?bt=0&et=0&si=&rn=20&tn=news&ie=gb2312&ct=1&word=%BE%A9%B6%AB618&pn=1980&cl=2

注：上述地址中的“%E4%BA%AC%E4%B8%9C”是对“京东”关键词的转码，以遵循网页地址的格式。

步骤S102，对所述网页地址进行数据抓取，得到抓取网页内容。

该步骤中，对应上述示例，则每一个网页地址，都能得到一个网页页面，对该网页页面进行抓取，得到网页内容。

步骤S103，根据抓取网页内容，确定满足预设统计条件的网页地址数量的统计结果。通过设定合适的统计条件，能很好地减少因处理不合适的数据所造成的资源浪费。

较佳地，该步骤可以通过如下三种方式确定统计条件。

方式一、所述预设统计条件可以为：所述网页地址的抓取网页内容有效。此时，所述确定满足预设统计条件的网页地址数量的统计结果，包括：

获取在预设的统计周期内对所述网页地址进行数据抓取的抓取次数，及每次数据抓取的有效状态的网页地址数量；

计算在统计周期内的有效状态的网页地址的平均数量作为统计结果。

该方式统计网页地址是有效状态还是无效状态。其中有效状态指的是，这个网页地址请求出来的网页内容具有搜索结果。反之，无效状态指的是，这个网页地址请求出来的网页内容不具有搜索结果，或者直接跳转到其它非正常要求的搜索结果。

有效状态示例：

步骤S101示例中的第1个网页地址：

输入到浏览器：

出现的页面如图2所示（2013年5月23日16:11执行结果）。

如图2所示，该网页地址可以得到搜索结果，新闻内容属于第1页，可以判断该网页地址是有效的。

无效状态示例：

步骤S101示例中的第100个网页地址：

输入到浏览器：

出现的页面如图3所示（2013年5月23日14:57执行结果）。

如图3所示，该网页地址不具有搜索结果，这种页面是无效状态页面，第100页不存在。

上述有效状态和无效状态，可以通过对抓取到的网页内容进行模式匹配而确定。例如，抓取到的网页内容中含有“没有找到与”以及“相关的新闻内容”，则可以判断该网页内容所对应的网页地址不具有搜索结果，从而判定该网页地址为无效状态。

对于统计周期，可以是一个预先定义的周期C，在该周期内每一天对于确定的搜索条件的抓取频率为F，则该周期内的总抓取次数为：N=C×F。根据抓取每个网页地址统计的有效和无效状态，可以标记每次抓取的有效网页地址的数量，记为ne，即前ne个网页地址有效，第i次抓取，记为ne_i。根据上述得出的值，计算在统计周期内的有效状态的网页地址的平均数量作为统计结果：

NE (average) = \frac{Σ_{i = 1}^{N} {ne}_{i}}{N} .

方式一解决了需要人工定义生成种子数的不科学性，同时有效地减少了处理无效网页地址的资源浪费。

方式二、所述预设统计条件为：所述网页地址的抓取网页内容在规定时间段内。此时，所述确定满足预设统计条件的网页地址数量的统计结果，包括：

获取在预设的统计周期内对所述网页地址进行数据抓取的抓取次数，及每次数据抓取的在规定时间段内的网页地址数量；

计算在统计周期内的在规定时间段内的网页地址的平均数量作为统计结果。

该方式统计网页地址是否在规定时间段内。例如要抓取前10天内的数据，那么在第20页前是10天的，第20页之后是10天外的，即前20个网页地址的抓取网页内容在规定时间段内10天，满足预设统计条件的网页地址为前20个网页地址。

示例：

如步骤S101示例中的第1个网页地址，采用对应的网页内容中最后一条新闻的发布时间为准，即2012年6月20日19:18:00。只要该时间在规定时间段内，则可以判断该网页地址满足该方式的统计条件。

计算在统计周期内的在规定时间段内的网页地址的平均数量作为统计结果可以采用与前述方式类似的办法计算，即根据每个网页地址抓取的网页内容在规定时间段内，可以标记出每次抓取满足该时间段的网页地址，记为net，即前net个网页地址有效，第i次抓取，记为net_i。根据上述得出的值，计算在统计周期内的在规定时间段内的网页地址的平均数量作为统计结果：

NET (average) = \frac{Σ_{i = 1}^{N} {net}_{i}}{N} .

方式二解决了舆情爬虫抓取老数据的不可控性，有效地最大程度地减少了处理老数据的资源浪费。

方式三、所述预设统计条件为：所述网页地址的抓取网页内容有效，或所述网页地址的抓取网页内容包含规定时间段；

所述确定满足预设统计条件的网页地址数量的统计结果，包括：

获取在预设的统计周期内对所述网页地址进行数据抓取的抓取次数，及每次数据抓取的有效状态的网页地址数量，及每次数据抓取的包含规定时间段的网页地址数量；

计算在统计周期内的有效状态的网页地址的平均数量作为第一参数，计算在统计周期内的包含规定时间段的网页地址的平均数量作为第二参数；

根据所述第一参数和第二参数生成统计结果。

该方式是方式一和方式二的综合，第一参数可以为NE(average)，第二参数可以为NET(average)。

其中，根据所述第一参数和第二参数生成统计结果，可以采用第一参数和第二参数的加权平均值作为所述统计结果。即计算：N(final)＝w_NE×NE(average)+w_NETNET(average)，其中w_NE为第一参数的权值，w_NET为第二参数的权值。

更为简单的方式是令上述公式的两个权值均采用0.5，则：

N (final) = \frac{NE (average) + NET (average)}{2} .

方式三最大程度的减少了人工干预，提升了时效性和资源利用率。

步骤S104，根据所述统计结果修改所述生成种子数。

该步骤中，将生成种子数修改为上述步骤S103中的统计结果。则在下一次的抓取中，重新执行步骤S101时，网页地址的数量使用新的生成种子数。经过多次的抓取后，对于同一搜索条件，其生成种子数渐趋稳定，并适应该搜索条件。

本发明实施例还提供了一种网页爬虫抓取装置，如图4所示，包括：

网页地址生成模块401，用于根据给定的搜索条件及生成种子数，生成至少一个满足搜索条件的网页地址，所述网页地址的生成数量与所述生成种子数相同;

网页内容抓取模块402，用于对所述网页地址进行数据抓取，得到抓取网页内容；

统计结果获取模块403，用于根据抓取网页内容，确定满足预设统计条件的网页地址数量的统计结果；

生成种子数修改模块404，用于根据所述统计结果修改所述生成种子数。

在其中一个实施例中，所述预设统计条件为：所述网页地址的抓取网页内容有效。

进一步的，所述统计结果获取模块，具体用于：

在其中一个实施例中，所述预设统计条件为：所述网页地址的抓取网页内容在规定时间段内。

进一步的，所述统计结果获取模块，具体用于：

在其中一个实施例中，所述预设统计条件为：所述网页地址的抓取网页内容有效，或所述网页地址的抓取网页内容在规定时间段内；

所述统计结果获取模块，具体用于：

获取在预设的统计周期内对所述网页地址进行数据抓取的抓取次数，及每次数据抓取的有效状态的网页地址数量，及每次数据抓取的在规定时间段内的网页地址数量；

计算在统计周期内的有效状态的网页地址的平均数量作为第一参数，计算在统计周期内的在规定时间段内的网页地址的平均数量作为第二参数；

根据所述第一参数和第二参数生成统计结果。

在其中一个实施例中，所述统计结果获取模块根据所述第一参数和第二参数生成统计结果，具体为：

计算所述第一参数和第二参数的加权平均值作为所述统计结果。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种网页爬虫抓取方法，其特征在于，包括：

对所述网页地址进行数据抓取，得到抓取网页内容；

根据所述统计结果修改所述生成种子数。

2.根据权利要求1所述的网页爬虫抓取方法，其特征在于，所述预设统计条件为：所述网页地址的抓取网页内容有效。

3.根据权利要求2所述的网页爬虫抓取方法，其特征在于，所述确定满足预设统计条件的网页地址数量的统计结果，包括：

4.根据权利要求1所述的网页爬虫抓取方法，其特征在于，所述预设统计条件为：所述网页地址的抓取网页内容在规定时间段内。

5.根据权利要求4所述的网页爬虫抓取方法，其特征在于，所述确定满足预设统计条件的网页地址数量的统计结果，包括：

6.根据权利要求1所述的网页爬虫抓取方法，其特征在于，所述预设统计条件为：所述网页地址的抓取网页内容有效，或所述网页地址的抓取网页内容在规定时间段内；

根据所述第一参数和第二参数生成统计结果。

7.根据权利要求6所述的网页爬虫抓取方法，其特征在于，所述根据所述第一参数和第二参数生成统计结果，包括：

8.一种网页爬虫抓取装置，其特征在于，包括：

9.根据权利要求8所述的网页爬虫抓取装置，其特征在于，所述预设统计条件为：所述网页地址的抓取网页内容有效。

10.根据权利要求9所述的网页爬虫抓取装置，其特征在于，所述统计结果获取模块，具体用于：

11.根据权利要求8所述的网页爬虫抓取装置，其特征在于，所述预设统计条件为：所述网页地址的抓取网页内容在规定时间段内。

12.根据权利要求11所述的网页爬虫抓取装置，其特征在于，所述统计结果获取模块，具体用于：

13.根据权利要求8所述的网页爬虫抓取装置，其特征在于，所述预设统计条件为：所述网页地址的抓取网页内容有效，或所述网页地址的抓取网页内容在规定时间段内；

所述统计结果获取模块，具体用于：

根据所述第一参数和第二参数生成统计结果。

14.根据权利要求13所述的网页爬虫抓取装置，其特征在于，所述统计结果获取模块根据所述第一参数和第二参数生成统计结果，具体为：