CN102054028B

CN102054028B - 一种网络爬虫系统实现页面渲染功能的方法

Info

Publication number: CN102054028B
Application number: CN 201010590806
Authority: CN
Inventors: 黄斌
Original assignee: 黄斌
Current assignee: Beijing fahe Digital Technology Group Co., Ltd
Priority date: 2010-12-10
Filing date: 2010-12-10
Publication date: 2013-12-25
Anticipated expiration: 2030-12-10
Also published as: CN102054028A

Abstract

本发明公开了一种网络爬虫系统实现页面渲染功能的方法。该网络爬虫系统包括多个信息采集器、页面分析器、URL过滤器、页面过滤器、URL管理器、图片生成器、URL库和页面库，不仅能完成一般网络爬虫的功能，还可以将网页直接进行页面渲染，并将渲染结果直接用图片格式加以保存，从而为低成本、高效率地实现页面预览功能奠定技术基础。利用本发明，当我们根据网页的地址进行检索后，不仅可以了解该页面的基本内容，能够看到其基本的显示效果，从而更多地了解整个页面的内容。

Description

一种网络爬虫系统实现页面渲染功能的方法

技术领域

本发明涉及一种网络爬虫系统实现页面渲染功能的方法，属于网络资源搜索技术领域。

背景技术

据有关媒体报导，美国谷歌(google)公司在2010年10月6日推出了搜索结果可视预览功能，允许用户在搜索结果列表中直接以缩略图的形式预览每个页面。据谷歌公司有关人士介绍，“有时用户点击一个搜索结果，却发现出现的页面与其想要的页面相差甚远。于是用户只能点击返回，再去点击另一个搜索结果。这种体验很差。我们试图以提供预览的方式避免这种情况的发生。”为此，用户将在搜索结果右侧看到一个放大镜标志，点击放大镜就可以看到这个页面的缩略图预览。用户还可以向下滑动，查看所有搜索结果的预览图。

为了满足搜索结果可视预览的要求，谷歌公司将存储几十亿个流行度较高的网页的缩略图。对于流行度较低的页面，谷歌公司也通过技术手段在不到十分之一秒的时间内生成缩略图。但是，满足上述要求所付出的硬件成本和软件成本都是巨大的。

目前还有一些别的技术手段可以实现页面预览功能，例如使用CGI程序，抓取浏览器的图像区，利用浏览器的绘图功能生成图片。另外，在专利申请号为200910221416.5的中国发明专利申请中，公开了一种利用图像分析对互联网进行自动爬行的方法和装置。对网页组件进行视觉识别的示例性方法包括以下步骤：在网络浏览器中渲染网页以生成图像，利用机器对图像的至少一个部分进行视觉分析以检测包含可能的网页组件的区域。该示例性方法还包括步骤：自动确定检测到的网页组件的类型，并存储该网页组件类型和网页部分的位置。

但是，现有技术中并没有利用网络爬虫系统实现页面预览功能的解决方案。网络爬虫(Web Crawler)又称为网页蜘蛛(Web Spider)、网络机器人(Web Robot)，是按照一定的规则自动抓取互联网信息的程序或者脚本组成的系统。它的工作过程可以简述如下：从预先指定的初始URL集(也称种子集)出发，从中选择一个URL，获得该URL所指向的页面，再从这个已经访问的页面中解析出新的URL，并对这些刚刚提取的URL进行分析比较，判断哪些URL还没有被访问过并将它们放入到等待访问的队列，再按照指定的策略从该等待访问队列取出下一个URL继续访问。如此重复，直到等待访问队列为空或满足停止访问条件，其过程与有向图的遍历非常相似。访问的过程中，将该网页的文本内容保存在搜索引擎的数据库中进行分析处理。

在这些网络爬虫系统的运行过程中，普遍只将网页的内容按网页文件进行分析，抽取其中的内容。一些网络爬虫系统则更进一步，对这些内容进行简单的处理，如加以语义标注等，方便搜索引擎进行整理排序。但是，这些网络爬虫系统普遍不具备页面渲染的功能，因此并不能方便地实现搜索结果页面预览功能。

发明内容

本发明所要解决的技术问题是提供一种网络爬虫系统实现页面渲染功能的方法。

为实现上述的发明目的，本发明采用下述的技术方案：

一种网络爬虫系统实现页面渲染功能的方法，所述网络爬虫系统包括多个信息采集器、页面分析器、URL过滤器、页面过滤器、URL管理器、图片生成器、URL库和页面库；其中，

所述信息采集器位于所述网络爬虫系统的底层，与互联网直接进行交互以获取Web页面，所述页面分析器与所述信息采集器进行连接，一方面从页面内容中解析出带有链接标记的URL，交给所述URL过滤器解析；另一方面将页面内容解析为文本格式，交给所述页面过滤器处理；

所述URL过滤器利用扩展元数据的语义信息，对从Web页面中提取出的URL进行主题相关性预测，按照相关链接进行采集、不相关链接直接丢弃的原则进行剪枝处理，在对URL进行限定站点范围和主题的过滤之后，存入URL库中；所述页面过滤器进行页面内容的语义检测，将检测后的页面存入页面库中；

所述图片生成器连接所述URL库，针对所述URL库中存储的URL生成页面对应的图片；其特征在于包括如下步骤：

(1)生成Web页面的开始标签；

(2)渲染页面模板中的内容，其中每进入一个标签，都依次调用所述标签的各个生命周期阶段，其中调用所述标签的各个生命周期阶段是指从上层标签到下层标签的递归入口，只有下层标签渲染结束，进行调用的组件才继续后续阶段的操作；

(3)渲染Web页面中的体；

(4)生成Web页面的结束标签；

(5)清除数据。

其中较优地，所述步骤(4)中，生成结束标签的操作由控制内嵌标签执行流程的操作代替。

本发明所提供的网络爬虫系统不仅能完成一般网络爬虫的功能，还可以将网页直接进行页面渲染，并将渲染结果直接用图片格式加以保存，从而为低成本、高效率地实现页面预览功能奠定技术基础。

附图说明

下面结合附图和具体实施方式对本发明作进一步的详细说明。

图1为本发明所提供的网络爬虫系统的整体组成示意图；

图2为本网络爬虫系统实现网络爬虫基本功能的流程示意图；

图3为本网络爬虫系统实现页面渲染功能的流程示意图。

具体实施方式

如图1所示，本发明所提供的网络爬虫系统主要由以下各部分组成：

1.信息采集器

每个信息采集器是一个网页蜘蛛(Web Spider)，处于网络爬虫系统的底层，是网络爬虫系统与海量的互联网信息(如论坛、博客、WAP、文档、音视频资料等)直接进行交互的接口部分。信息采集器的作用是获取Web页面。它通常从信息源(如用户查询、URL列表或某一页面)出发，通过http协议请求，下载Web页面，页面分析器分析页面并提取链接，然后信息采集器再以迭代的方式访问网络。在本发明的一个具体实施例中，信息采集器优选采用图的遍历算法(如广度优先或深度优先策略)搜索Web页面。

为保证高速获取Web页面中的信息，本网络爬虫系统在并行机制的基础上，对各个信息采集器采用多线程技术。在一般情况下，每个信息采集器能同时启动数百个线程进行页面信息采集。URL管理器采取交织存取的方式管理待采集的URL队列，向各个信息采集器分配采集任务，因此可以保证同一个信息采集器最多只有一个线程连接同一个Web服务器，有效避免该Web服务器因访问量骤增而出现阻塞甚至宕机。

2.链接(URL)过滤器

在URL库里存放的是从采集到的页面中提取出来的所有URL，为避免采集页面出现“主题漂移”问题，这些URL在进入URL库前都必须经过主题相关性预测。我们利用扩展元数据(即HTML Tag如Anchor等信息)的语义信息，对从采集到的页面内提取出来的URL进行主题相关性预测，按照相关链接进行采集、不相关链接直接丢弃的原则进行剪枝处理，减少系统采集无关页面的数量，从而大量节省系统运行成本，有效提高主题信息搜索的速度和效率。链接过滤器将被预测为指向主题相关页面的链接(URL)入库存储，进而作为待采集URL由URL管理器分配给各个信息采集器采集该URL链接所指向的Web页面。

3.页面过滤器

为进一步提高系统的查准率，需要对采集下来的页面进行主题相关性判断，也就是页面过滤。这实质上是一个文本主题分类的过程。通过去除相关性较小的页面(小于设定的阈值)，提高系统的查准率。根据全信息理论，自然语言作为认识主体所表述的“事物运动状态及其变化方式”，包括形式、含义和其对认识主体的效用等三方面，分别称为事物的语法信息、语义信息和语用信息，而这三者的整体则称为“全信息”。自然语言文本具有词语同义性、词语多义性等特点，而Web文本是自然语言的一种特殊载体，因此在判断一篇文本是否与系统的采集主题相关时，我们不但要关心文本的语法信息，还需要关心文本的语义准确性。本网络爬虫系统的页面过滤器以此为依据，吸收传统向量空间模型的思想，采用基于概念的向量空间法进行页面内容的过滤，通过将词汇映射到概念一级，从词所表达的概念意义层次也就是语义层次对文本进行相关性分析。

4.页面分析器

页面分析器的主要功能是解析抓取下来的页面内容，可以分为两部分工作：一部分是解析出带有链接标记的URL，交给URL过滤器解析，提取出链接；另一部分是将页面内容解析为文本格式，交给页面过滤器处理。

5.URL管理器

URL管理器的主要功能是管理URL任务。一方面URL管理器从URL库中获得URL列表，并将它们进行任务排列后分配给多个信息采集器，另一方面URL管理器从多个信息采集器中获得新的URL列表，将这些列表以一定的策略保存到URL库中。

如图2所示，上述的网络爬虫系统在实现网络爬虫的基本功能时，首先由URL管理器启动信息采集器开始Web页面的采集工作，并对采集的Web页面进行存储。然后由页面分析器进行分析，获得标记和页面两部分。其中的标记由送入URL过滤器进行解析，而页面部分送入页面过滤器，由页面过滤器进行内容冗余检测后，存入页面库中。Web页面在由URL过滤器进行限定站点范围和主题的过滤之后，送入URL库中。此后，与URL库连接的图片生成器开始工作，针对URL库中存储的URL生成页面对应的图片。下面对此展开具体的说明。

首先，用户输入网址向服务器发出请求，服务器返回html格式的Web页面；页面解析器开始载入html语言的源代码，如果发现<head>标签内有一个<link>标签引用外部CSS文件，则发出CSS文件的请求，服务器返回这个CSS文件；页面解析器继续载入html中<body>部分的代码，开始渲染页面。

如图3所示，本网络爬虫系统实现页面渲染功能的具体步骤是这样的：

1.渲染准备阶段

用于渲染前的准备操作，比如初始化一些数据；

2.生成开始标签

用于生成一个Html文件的开始标签；

3.渲染模板

该步骤主要用于渲染模板中的内容。这个阶段一般会有多个标签需要渲染，每进入一个标签，都会依次调用这个标签的各个生命周期阶段，也就是说，本处是一个从上层标签到下层标签的递归入口，只有下层标签渲染结束，进行调用的组件才会继续后续阶段的操作。

4.渲染体

与渲染模板相似，也是渲染一段模板中的内容。比如对于a标签(<a href="pagelink">this is body</a>)，它的body是“this isbody”这几个文字。

5.生成结束标签

该步骤一般用于生成一个结束标签，或者控制内嵌标签的执行流程。

6.清除数据

其它几个阶段并非经常用到，更多是保证生命周期的完整性。

需要说明的是，当发现一个<img>标签引用了一张图片时，向服务器发出请求。此时不必等到图片下载完，而是继续渲染后面的代码；服务器返回图片文件。由于图片占用了一定面积，影响了后面段落的排布，因此需要回过头来重新渲染这部分代码；当发现存在一个JavaScript代码的<script>标签时，执行语句，重新渲染JavaScript执行中处理的那部分页面代码；然后由图片生成器将渲染的结果生成图片。

上面以html格式的Web页面为例对本发明作了说明，但本发明所提供的具备页面渲染功能的网络爬虫系统并不限于处理html格式的页面，其它格式的Web页面也是可以直接处理的。

利用本发明，当我们根据网页的地址进行检索后，不仅可以了解该页面的基本内容，更重要的是能够看到其基本的显示效果，从而更多地了解整个页面的内容。

以上对本发明所提供的网络爬虫系统实现页面渲染功能的方法进行了详细的说明。对本领域的技术人员而言，在不背离本发明实质精神的前提下对它所做的任何显而易见的改动，都将构成对本发明专利权的侵犯，将承担相应的法律责任。

Claims

1.一种网络爬虫系统实现页面渲染功能的方法，所述网络爬虫系统包括多个信息采集器、页面分析器、URL过滤器、页面过滤器、URL管理器、图片生成器、URL库和页面库；其中，

(1)生成Web页面的开始标签；

(3)渲染Web页面中的体；

(4)生成Web页面的结束标签；

(5)清除数据。

2.如权利要求1所述的网络爬虫系统实现页面渲染功能的方法，其特征在于：

所述步骤(4)中，生成结束标签的操作由控制内嵌标签执行流程的操作代替。