CN102880607A

CN102880607A - 网络动态内容抓取方法及网络动态内容爬虫系统

Info

Publication number: CN102880607A
Application number: CN2011101950347A
Authority: CN
Inventors: 张振辉
Original assignee: Social Analytics Hk Ltd
Current assignee: Social Analytics Hk Ltd
Priority date: 2011-07-15
Filing date: 2011-07-15
Publication date: 2013-01-16

Abstract

本发明涉及网络动态内容抓取方法及网络动态内容爬虫系统，其中该方法包括向目标网站提交访问请求，获取包含一项或多项动态内容的目标网页；提取所获取的目标网页中的指定区域中的动态内容；对于提取到的每一项动态内容，判断其是否存在于缓存中，若存在则不对该项动态内容进行处理，若不存在则前进至下一步骤以抓取该项动态内容；将该动态内容通过渲染固化到本地，以生成与该动态内容的当前内容对应的静态内容；对该静态内容进行解析，提取目标内容并将其保存到本地，并将该项动态内容缓存至缓存中。本发明的网络内容抓取技术能够定制抓取网页中指定区域中的内容，及时抓取滚动新闻等动态滚动内容，并可用作搜索引擎及其他外部应用的内容提供者。

Description

网络动态内容抓取方法及网络动态内容爬虫系统

技术领域

本发明涉及网络爬虫技术，特别是一种可以抓取网页中的特定内容的网络动态内容抓取方法及网络动态内容爬虫系统。

背景技术

网络的飞速发展，使互联网成为大量重要信息的载体。如何有效地提取并利用这些信息成为一个巨大的挑战。

目前能够帮助人们访问互联网信息的手段主要包括传统搜索引擎、垂直搜索引擎，以及聚焦爬虫。但是它们都存在着一定的局限性，应用范围不够专注，无法完成新闻编辑、网络内容监看等实际生产领域的业务需要，主要体现在以下方面。

传统搜索引擎的局限性：

1.返回的结果包含大量用户不关心的网页；及

2.有限的搜索引擎服务器资源与无限的网络数据资源之间的矛盾。

垂直搜索引擎的局限性：

1.抓取的数据倾向于结构化数据及元数据，根本上是一种服务于特定行业的搜索引擎，需要关键字来指导搜索所提供的服务方向。是通过对抓取的数据进行再分类、分词索引达到信息精准的目标。也就是说，只有在关键词、及行业信息被明确后(如：房地产、找工作等抓取目标)才能驱动抓取。

2.需要对抓取的内容添加标签和属性才能完成最终的检索服务。用户在使用时，也只能查看到与某关键词，或是某行业内容有关的搜索结果。同时，由于垂直搜索的这一工作特点，无法及时跟踪页面内容变换。

聚焦爬虫的局限性：

1.虽然能够在一定程度上进行对抓取目标的描述和定义，但是过滤内容的颗粒度不够细腻；

2.只是停留在对URL的搜索匹配，无法深入到页面内容本身；

3.难以真正实现聚焦效果，受自身搜索策略限制；及

4.搜索结果以网页为最小单元，而不是以内容为最终抓取目标。

此外，随着网络新闻、博客、微博等技术的发展，网页中的动态内容在互联网上呈现出爆炸式增长，然而面向页面和URL或由关键字驱动的现有搜索引擎和爬虫无法定制抓取网页中指定区域中的内容，且不能及时地抓取到滚动新闻等动态内容的更新。

因此，现有技术中需要一种能够有效地对网页内部的动态内容进行抓取并及时跟踪页面中动态内容变换的网络爬虫系统及方法。

发明内容

针对现有技术中的上述问题，本发明提供一种新型网络内容抓取技术(Social-Spider技术)。它通过多种先进的发明技术组合，弥补了传统网络爬虫无法定制抓取网页中指定区域中的内容，以及对滚动新闻更新抓取不及时等局限性。并将应用范围定型到新闻编辑、网络内容监看等实际生产领域，在对即时新闻或滚动新闻的处理上具有强大的实际运作能力。同时本发明开放灵活的对外接口，为搜索引擎以及其他外部应用充当内容提供者的角色。

在本发明的一方面，提供一种网络动态内容抓取方法，所述方法包括下述步骤：

(1)向目标网站提交访问请求，获取包含一项或多项动态内容的目标网页；

(2)提取所获取的目标网页中的指定区域中的动态内容；

(3)对于提取到的每一项动态内容，判断其是否存在于缓存中，若存在则不对该项动态内容进行处理，若不存在则前进至下一步骤以抓取该项动态内容；

(4)将所述动态内容通过渲染固化到本地，以生成与所述动态内容的当前内容对应的静态内容；

(5)对所述静态内容进行解析，提取目标内容并将其保存到本地，并将该项动态内容缓存至缓存中。

本发明的网络动态内容抓取方法(Social-Spider技术)作为抓取手段，可以为搜索引擎服务。其独立于搜索引擎之外，应用方向定位也有所不同。本发明是对传统的网页搜索引擎的革新。

本发明是对以往人们获取网络内容的方式及方法的改革。其不在面向网页或是URL，而是面向内容。其通过一种简单易行，所见即所得的操作方式，将人们的目标聚集到页面内部某一板块，或某一感兴趣的专题内容。突破了以往的各种爬虫只是以页面本身为抓取目标的局限性。而互联网上有越来越多的网页包含在不更新整个网页的情况下进行局部更新的动态内容。相应地，本发明网络动态内容抓取技术能够准确及时地抓取到在网页内部更新的动态内容。

优选地，所述动态内容是动态滚动内容。

动态滚动内容的示例包括但不限于滚动新闻、论坛文章、博客文章、微博消息等。这样的内容往往在页面内部滚动更新。换言之，在页面的URL没有发生变化的情况下，其包含的动态滚动内容已发生变化，且该页面原有的部分动态滚动内容可能已滚动至下一页，同时有新的动态滚动内容增加到该页面中。面向页面或URL或者以关键词驱动的现有爬虫和搜索引擎难以及时捕捉到这样的更新。

优选地，所述目标网页是带有Ajax代码或引用外部Javascript脚本的动态网页。

普通搜索引擎也能够处理部分带有程序脚本的动态网页。但是外部脚本、Ajax的处理依旧是传统爬虫及搜索引擎无法处理的难题。目前市场上的爬虫及搜索引擎仅能处理部分动态网页：对“window.location”属性赋值通过进行的逻辑重定向；通过“document.write”和“document.writeln”调用增加到文档中的链接和内容；通过事件处理器生成的链接；作为Javascript伪URL的链接；具有onclick事件返回值的链接。而本发明的技术方案能够渲染任意网页，解析任意脚本，例如(1)带有Ajax代码的网页：这种网页的在客户端访问的时候要频繁与后台服务器交互，做请求/应答，及XML格式数据交互。现有爬虫无法与后台服务器进行通信，或无法交互数据；(2)引用了外部Javascrpit脚本的网页：这种网页在客户端访问时，需要加载外部Javascrpit程序脚本资源，之后才能对后台服务器请求显示数据。现有爬虫不识别，或加载外部Javascrpit脚本。

可选地，所述指定区域是通过选择器指定的目标网页中的网页片段或区块。

本发明的网络动态内容抓取技术在抓取内容之前无需明确关键词及行业信息。其抓取目标直接以网页结构为出发点，可以对网页内部的特定栏目进行跟踪抓取，不依赖于关键词或是信息属性元数据。

另外，可以通过比较提取到的动态内容生成的缓存文件是否存在于缓存中，通过比较提取到的动态内容的网页片段是否存在于缓存中，或者通过比较提取到的动态内容经渲染后得到的内容是否存在于缓存内部的树状结构中，来判断其是否存在于缓存中，其中缓存内部采用树状结构，动态内容经渲染后在缓存中的树状结构进行查找，通过树是否存在该节点来判断内容是否存在于缓存，进而判断该内容是否为更新内容。且优选地，所述缓存为抓取层缓存。

在搜索引擎和爬虫技术领域中使用的现有缓存技术是以检索数据库及文件系统存储方式来完成的。一些搜索引擎完全依靠数据库中的已接受检索的内容，也就是网页快照作为缓存目标，再去重的时候需要与数据库内容进行交互才能完成去重工作。

本发明的网络动态内容抓取技术的缓存功能被设置在抓取层，不去牺牲于数据库交互的资源与运行时间。缓存的内容也不是网页快照或是信息内容本身，而是缓存目标抓取网页中的内容的树状结构，根据该结构来判断重复的动态内容。这种特殊的缓存方式是为了能够满足本发明的网络动态内容抓取技术能够及时抓取目标网页中的动态内容，包括动态滚动内容而设计的。

另外，如果所述动态滚动内容为网页链接，则可以在上述步骤(4)中将所述网页链接指向的网页通过渲染固化到本地，以生成与所述动态滚动内容的链接所指向的网页的当前内容对应的静态内容。

本发明的网络动态内容抓取技术不仅能够抓取直接包含动态滚动内容的网页，例如微博，而且能够抓取包含动态滚动内容链接的网页，例如滚动新闻、论坛、博客等目标网页。

可选地，本发明的网络动态内容抓取方法还可以包括下述步骤：

(6)根据设定的更新频率，重复执行上述步骤(1)至(5)，以使保存到本地的目标内容与目标网页中的动态滚动内容保持同步。

目前而言，现有搜索引擎对包含即时动态滚动内容的动态网页的处理依旧以普通网页对待，不对更新内容做任何跟踪检测。例如就目前所知，当前市场没有专门跟踪即时滚动新闻的抓虫系统。某些搜索引擎可以抓取即时滚动新闻的一些内容，但无法完成持续跟踪工作。一些搜索引擎对即时滚动新闻网页内容更新的反应速度经常达到7个小时以上。而一些大型搜索引擎为了能够检索到即时滚动新闻网页频繁的更新内容，后台投入了大量的云计算服务器集群才能达到跟踪效果。而这种资源投入也不是企业级应用能够达到的。相比之下，本发明的网络动态内容抓取技术最大限度的降低了对硬件条件的要求，可以在最普通的服务器上搭建分时、分任务的部署方式。使之在执行抓取任务的时候，通过高并发性达到即时跟踪滚动新闻更新频率的效果，有效地解决了有限的搜索引擎服务器资源与无限的网络数据资源之间的矛盾。

在本发明的另一方面，提供一种网络动态内容爬虫系统，其包括执行抓取任务的核心抓取引擎，所述核心抓取引擎包括：

渲染器，其将动态网页中包含的数据通过渲染固化到本地，以生成与所述数据的当前内容对应的静态数据；

内置模拟浏览器，其模拟一台或多台客户端浏览器与服务器通信；

解析器，其根据选择器的运行期请求对网页或网页片段进行解析；

选择器，其定位网页内容在网页或网页片段中的位置；

其中所述模拟浏览器向目标网站提交访问请求，获取包含一项或多项动态内容的目标网页；

所述解析器提取所获取的目标网页中的指定区域中的动态内容；

所述爬虫系统对于提取到的每一项动态内容，判断其是否存在于缓存中，若存在则不对该项动态内容进行处理，若不存在则使用所述渲染器抓取该项动态内容；

所述渲染器将所述动态内容通过渲染固化到本地，以生成与所述动态内容的当前内容对应的静态内容；

所述解析器对所述静态内容进行解析，提取目标内容并将其保存到本地，所述核心抓取引擎还将该项动态内容缓存至缓存中。

优选地，本发明的爬虫系统还可以包括：

任务组管理器，用于将一组具有相同属性的抓取任务归类到一个任务组中，并统一为该任务组中的任务分配运行期资源；

任务调度器，用于对抓取任务生命周期进行管理；及

任务加载器；

其中在抓取多个目标网站上的包含一项或多项动态内容的目标网页时，所述任务调度器为每个目标网站分配一个定时器，所述定时器控制任务加载器访问目标网站的时间；

任务加载器根据配置文件中的描述，向目标网站提交访问请求，并比较目标网站的响应与本地缓存，以确定目标网页中的一项或多项动态内容是否有更新；

若判断有更新，则任务加载器向核心抓取引擎提出抓取请求，且核心抓取引擎在接收到任务加载器的请求后，开始进行抓取工作，将动态内容通过模拟浏览器和渲染器提取到本地，并将新提取到的目标内容保存到缓存中；

若判断没有更新，则任务加载器抛弃该抓取任务，并修改自身状态为闲置，等待任务调度器分配下一任务。

总体上，本发明的网络动态内容抓取技术主要包括以下改进及特色功能：

1.抓取网页页面的指定内容，或区块；

2.缓存功能帮助剔除重复新闻及内容，加速处理速度，帮助提高结果相关度；

3.高效同步新闻网页内容的更新频率；

4.内置模拟浏览器。友好访问内容提供者的资源，不易遭到访问拒绝；

5.多线程，多任务分时处理抓取工作，高效的任务并发性；

6.动态页面抓取功能，包括处理Ajax、Javascript等页面；

7.打破XPath复杂编程的束缚，使用Like-JQuery(类JQuery)配置语言，方便简单。无需使用者具备编程知识就可以轻松上手操作；

8.外部应用接口，可集成包括搜索引擎等任何外部系统及应用。

同时由于本发明采用了多种创新的先进技术，最大限度的降低了对硬件条件的要求，可以在最普通的服务器上搭建分时、分任务的部署方式。使之在执行抓取任务的时候，通过高并发性达到即时跟踪滚动新闻更新频率的效果。

这一创新的发明，帮助人们可以同时对数以千计的即时滚动新闻网站进行同步的监看及摘录。对于新闻编辑工作，网络内容监看，突发事件监测、热点新闻捕捉等业务领域提供了一套最切合实际的解决方案。

对本发明的上述概要说明不意图限定要求保护主题的关键特征或核心特征，也不意图将上述概要说明用于限制所要求保护的主题的范围。

附图说明

图1是本发明的网络动态内容爬虫系统的整体架构示意图；

图2是本发明的网络动态内容爬虫系统抓取网络动态内容的示意流程图；

图3是抓取任务的配置文件模式(Schema)的示意图；

图4展示了内置模拟浏览器的示意性整体架构；及

图5示出了本发明的网络动态内容抓取方法的示意流程图。

具体实施方式

本发明通过一种所见即所得的网页内容抓取方式，开辟了一种新的爬虫工作方式。这种新型的爬虫技术不仅突破了以往爬虫的工作原理(如：传统搜索引擎、垂直搜索引擎、聚焦爬虫)，同时也避免了网络信息采集工具的弊端。它是一种可以直接投放用在大型工业生产，并可与Google(谷歌)搜索设备紧密配合，简单易用的，具有高可配性，高扩展性的基于业务策略的爬虫。

下面结合附图对本发明的网络动态内容抓取方法及网络动态内容爬虫系统的示意性实施方案进行描述。在下面的说明中，为了说明目的，阐述了大量具体细节以便对请求保护的主题提供全面的理解。然而应理解，本申请请求保护的主题的实现不受限于这些具体细节。

架构介绍

图1是本发明的网络动态内容爬虫系统(Social Spider，以下简称“爬虫系统”)的整体架构示意图。它在一个实施方案中揭示了本发明的爬虫系统如何组织抓取工作，各个内部组件之间如何协同工作，如何实现高并发抓取任务。

核心抓取引擎(Crawler Engine)是本发明的爬虫系统处理HTTP/TCP等网络协议，解析HTML及Javascript等脚本语言的核心模块。它包括四个部分的内核模块：

1.渲染器(Render)是用来将动态网页中，本来存储于服务器端的数据，如Ajax数据、Javascript数组等运行期数据，通过渲染的方法，将之固化到本地，并将所得数据正确辨析的该网页的相应Tag标签内，使随后对HTML文档解析，如DOM，SAX可以直接对其操作。是一种在客户端实现的动态网页转静态网页的技术。

2.解析器(Parser)是在遵循W3C DOM标准的前提下，与选择器(Selector)紧密结合的HTML文件解析器。传统DOM解析是对HTML文件一次性读入内存，然后进行面向对象实例化，对DOM树上所有的节点一次性加载，极其消耗资源，是系统运行速度的主要瓶颈。然而，本发明的爬虫系统中的Parser是根据运行期请求，在选择器组件发出对某一Node节点的读取请求后，才进行对相应节点的解析处理，最大限度的节省了运行期资源的占用。

3.内置模拟浏览器(Simulated Browser)在向服务器端发送访问请求的时候，模拟一台或多台客户端浏览器进行访问请求。这种友好的访问方式，不易令服务器端误解为恶意性质的请求。模拟浏览器发出的HTTP请求可以自行配置，例如属性可以包括：

UserAgent：访问者身份名称；

Accept-Encoding：要求服务器返回数据的类型；

Browse name：浏览器类型(如：IE，Mozilla，Chrome)；

Timeout：连接超时限制。

通过以上模拟浏览器的设置，可以自由更换访问请求者的身份，从而避免被服务器禁止访问。

4.选择器(Selector)使用Like-JQuery的语法。它为客户端配置提供了一种非常简单的节点定位机制，与以往使用的Xpath风格不同。XPath需要冗长的路径代码才能描述清楚哪一个是需要处理的具体节点，而Like-JQuery的语法结构借鉴了JQuery简洁明了的选择器机制，并将其从Javascript前端语言移植到后端的Java语言中，方便了用户在编写配置文件时的编程量。

例如：使用Xpath来表示一个节点，语法为：//div[id＝′contentA′andclass＝′Area′]/div[1][class＝′columnN′]/div[1][class＝′columnI′]/div[1][class＝′news′]/div[class＝′list14′]；而使用选择器来表示该节点的语法为：.List14就可以直接定位到该节点。

5.任务组管理器(TaskGroup Manager)。在本发明的爬虫系统中，其将一组具有相同属性的抓取任务归类到一个任务组(如：访问服务器的频率，所需访问并发量等)。会统一为该任务组中的任务分配运行期资源(如：线程分配，轮询时间(Pollingtime)分配等)。

6.任务调度器(Task Scheduler)对抓取任务生命周期进行管理。包括任务的开始及结束时间，轮询访问目标网站的间隔时间等。

工作方式及配置方法

如图1所示，任务组管理器和任务调度器是任务加载和任务分配的核心模块。它们控制着抓取任务的资源分配，生命周期管理，向核心抓取引擎中相应模块提交处理请求等调度工作。

图3示意性地示出抓取任务的配置文件模式，从中可以看出，任务组(TaskGroup)是任务(Task)的父节点，其定义了一组任务的公共属性，包括缓存是否开启，使用多少线程来完成抓取工作，多少时间间隔去访问一次服务器。以下是一个具体的配置文件实例：

结合图1，对以上配置文件进行解读：配置文件被读取之后，将要根据配置内容进行调度并分配资源。任务组管理器将自动把XML中各个任务组节点下的内容抽取出来，进行实例化。该实例中，配置了两个目标网站，这两个网站都是即时的滚动新闻网站，并且网站服务器更新频率高于1000毫秒，也就是说如果本发明的爬虫系统在每1000毫秒内对其进行至少一次的访问，就可以保证与其服务器的更新频率一致。

事实上，本发明的内容爬虫系统也是通过这种特殊的方式来完成与内容提供服务器的更新频率同步的。

在任务组为每一组的抓取任务分配完资源之后，将会调用任务调度器模块。任务调度器将会真正地去为每一个配置文件中所描述的任务进行实例化，并监控它们的运行情况。当一次抓取结束之后，任务调度器将暂时挂起该任务，并等到下一个轮询时间的时候，重新启动该任务。

在该实施方案中展示了一个任务组，实际上，可以有多个任务组可以同时进行，本发明的爬虫系统可以自动控制这些任务组之间的加载、启动、停止及注销。

以下给出选择器定义：

tagname：通过标签查找元素，例如“A”标签；

ns|tag：通过命名空间中的标签查找元素，例如“fb|名称”可查找<fb:名称>元素；

#id：通过ID查找元素，例如“#logo”；

.class：通过类名查找元素，例如“.masthead”；

[attribute]：具有属性的元素，例如“[href]”；

[^attr]：具有属性名称前缀的元素，例如“[^data-]”可查找具有HTML5数据集属性的元素；

[attr＝value]：具有属性值的元素，例如“[width＝500]”；

[attr^＝value]，[attr$＝value]，[attr*＝value]：具有开始于、结束于或包含某值的属性的元素，例如“[href*＝/path/]”；

[attr～＝regex]：具有匹配正则表达式的属性值的元素，例如“img[src～＝(？i)\.(png|jpe？g)]”；

*：所有元素，例如“*”。

另外，应注意，在一个实施方案中，对于有一定网页技术的人员，可以根据自己想要抓取的网站及目标内容直接编写本发明的爬虫系统抓取配置文件以设定抓取目标。在另一实施方案中，对于普通用户，本发明的爬虫系统提供所见即所得的方法，利用浏览器插件的功能，让用户通过鼠标高亮所选区域，自动生成配置代码，并将配置代码自动加载到后端引擎进行处理。这种方式是一种图形界面与抓取页面直接融合的方式，无需用户具有任何专业基础。

原理及内部机制

图2揭示了本发明的网络动态内容爬虫系统如何同步的抓取即时新闻网页。本领域技术人员应理解，即时新闻网页仅作为一个示例示出，本发明的爬虫系统和动态内容网络动态内容抓取方法能够抓取网页内部的各种动态内容以及动态滚动内容，包括但不限于文字、图像、音频、视频以及新闻文章、论坛帖子、博客消息、微博消息。首先任务调度器将会为每一个抓取目标网站(ISP)分配一个定时器(Timer)，该定时器将控制着任务加载器(TaskLoader)何时去请求访问每一个目标网站。

②任务加载器根据配置文件中的描述，向目标网站提交访问请求，目标网站响应返回该请求。任务加载器将分析返回的数据中，各个新闻的标题，链接，以及编辑时间。作为替代，任务加载器也可以根据提取到的动态内容生成缓存文件，或者提取动态内容的网页片段，又或者渲染提取到的动态内容以得到树状结构。

③任务加载器根据上一步得到的新闻标题、链接、及编辑时间去查找本地缓存组件，是否已经存在于缓存库中。作为替代，可以通过比较提取到的动态内容生成的缓存文件是否存在于缓存中，通过比较提取到的动态内容的网页片段是否存在于缓存中，或者通过比较提取到的动态内容经渲染后得到的内容是否存在于缓存内部的树状结构中，来判断其是否存在于缓存中。

在一个实施方案中，不作为对本发明范围的限制，缓存树状结构从根节点起，遍历到叶子节点，可以具有如下结构：

1.根节点：存储各目标站点URL；

2.一级叶子节点：存储根节点下目标区域标识(以HTML中的选择器标识作为区域标识)；

3.二级叶子节点：类型为数组，数组内存储区域下某一消息的原始链接、页面编辑时间；

4.三级叶子节点：预留节点；为深度抓取时预留字段。

以上三级树状结构存储的是业务数据，为加速计算速度，每段业务数据匹配唯一的全局ID号。在进行数据查找时，程序只对ID进行匹配，不进行业务数据读取，以达到资源占用最小化的效果。

④缓存返回给任务加载器查找结果，如果有则说明目标网站没有更新；如果没有，则提示任务加载器这是一个更新的新闻，需要抓取。

⑤4中返回需要抓取的判断结果后，任务加载器将会向抓取引擎提出抓取请求。

4中返回不需要抓取的判断结果后，任务加载器将会抛弃该抓取任务，并修改自己的状态为闲置，提示任务调度器的监听器，任务调度器在获知该状态后，将会再次检查定时器是否符合向各目标网站发送访问请求的条件，并重复第2步。

⑥抓取引擎在第5步接收到任务加载器的请求后，开始进行抓取工作，将目标内容通过模拟浏览器和渲染器将之提取到本地，并将刚加入的新闻生成缓存文件保存到缓存组件中。

整个过程任务调度器、任务加载器以及抓取引擎保持全局唯一实例，属于长事务，而任务作为个组件之间的传输参数，属于短事务。保证了整个运行期的资源占用随用随释放。

相比之下，现有爬虫一般采取两种调度策略来执行抓取工作：1.顺序抓取；将所有目标网站依次排入顺序队列，从队列第一个元素开始顺序抓取，直到最后一个元素抓取工作完成，再进行新一轮迭代。2.为更新频率高的网站设置高优先级，将其他频率低的网站优先级降低。保证高优先级网站可以相对抓取次数增多。是一种相对的方式，当所有网站优先级全部或大部分一致的时候，这种调度策略失去意义。

而本发明的爬虫系统的处理方式是依照每个网站的更新频率，将目标网站群分类成多组，保证绝大部分网站的更新内容可以在分秒级的反应速度下检测到。并自动计算每组网站的更新频率，通过自调节的方式将更新频率相似的网站分类成一组。每组网站群独立分配运行期资源，并被独立线程或进程管理。在固定间隔时间内，通过定时器来驱动引擎对每组网站群进行抓取工作。

模拟浏览器

模拟浏览器是本发明的爬虫系统与外界通信的基本桥梁。本发明的爬虫系统在与目标网站通信的时候不是使用简单的HTTP协议来完成握手，而是通过内部的模拟浏览器，模仿一个真实的用户而不是程序去访问网页内容。这样做的好处在于：

1.运行稳定，不易出现连接超时(connection Timeout)错误；

2.访问方式友好，不易被服务器拒绝访问；

3.可处理多种网站内容，包括动态网站。

图4展示了模拟浏览器的示意性整体架构。该模拟浏览器的核心模块包括：

1.渲染器(Render)。请参考核心抓取引擎中的渲染器。主要负责处理Javascript等动态脚本的静态渲染；

2.布局器(layout)。其负责处理HTML页面中各种标签，是整体HTML的布局器。同时帮助语法不完整的HTML文件补齐格式，方便解析器使用；

3.缓存。在HTML内容被渲染和组织之后，将生成DOM树，并贮存到本地，直到预定时间之后被销毁；

4.HTTP及SSL协议层。负责向外部符合该协议的网络服务器通信；

5.该模拟浏览器可以识别并处理如下数据：HTML、JS(Javascript)、CSS、DOM、XML、DHTML、XHTML、XPATH、FLASH、POP、SMTP；

6.预留外部调用接口，与本发明的爬虫系统集成。

相比之下，现有模拟浏览器只是提供与内容提供服务器(ISP)通信的功能，不对浏览器本身做任何设置。而本发明的爬虫系统中的内置模拟浏览器允许用户进行高级的传输协议配置。

外部应用接口

本发明的爬虫系统具有外部应用接口，可集成包括搜索引擎等任何外部系统及应用，特别是，本发明的爬虫系统可通过外部应用接口与Google搜索设备(Google search appliance)集成，帮助Google搜索设备提供的搜索服务更加精准具体。具体来说，Google搜索设备是Google为企业级搜索应用提供的解决方案，作为搜索引擎，它可以为用户提供搜索服务，但不具备抓取和跟踪即时滚动新闻网页的能力；本发明的爬虫系统通过供稿源的方式，将捕获即时滚动新闻网页的更新内容无延误的递交给Google搜索设备，并可以通过强制检索命令通知Google搜索设备立即为更新的内容编制索引并发布搜索服务。

通过以上处理方式，Google搜索设备可以达到为用户提供即时新闻搜索的服务。如上文所述，这种即时新闻搜索服务效果是现有搜索引擎和爬虫无法自己独立完成的。

示意方法流程

图5示出了本发明的网络动态内容抓取方法的一个实施方案500的示意流程图。首先，在步骤502，程序起始，调用外部静态任务库，将任务库中的任务配置加载至系统中。

在步骤504，进行任务实例化，分配系统资源，分组任务等调度性工作。

在步骤506，实例化后的任务以独立实体的形式被提交到虚拟浏览器，浏览器将相应的对外部互联网上的资源进行请求。

对互联网的动态资源的请求将于缓存判断同步互斥执行，即：只有当动态资源被获得时，才进行缓存判断。

在步骤508，缓存分支判断：当该动态资源已被缓存记录，则说明该内容为已有内容，抛弃并循环回调步骤506，进行下一组任务请求；当该动态资源未被缓存记录，则说明该内容为更新内容，程序继续顺序执行。

在步骤510，获得继续执行的条件，程序将对具体页面内容进行渲染，获得真实数据，并入库保存。

在步骤512，在内容保存成功后，程序将会把该抓取内容所处位置按照树状结构进行解析，并将之相应的融合在缓存树状结构中，更新缓存。

在步骤514至516，一次任务抓取结束。该任务将挂起，并修改状态为‘挂起’，同时广播状态变更事件。负责任务生命周期的状态监听将获得该次变更事件，依照预定的抓取任务调度策略来衡量是否进行下次抓取：如果衡量为真，则激活该状态，并通知下一次任务加载，循环步骤504，实例化任务；否则，退出抓取程序。

结论

本文提出了一种有别于传统爬虫及搜索引擎的新型网页内容抓取工具，这种基于网页内容的抓取工具帮助使用者排除任何无关信息。经实验，爬取结果相关度可到达90％以上，具有超高的实用意义。

虽然已用特定于结构特征和/或方法步骤的语言描述了本申请的主题，可以理解本申请权利要求中限定的主题不必限于上述具体特征或步骤。上述方法步骤中的一个或多个可以顺序执行、并行执行、以不同顺序执行或者省略而不脱离本发明的范围。相反，上述具体特征和步骤是作为实现权利要求技术方案的示例形式公开的。应理解，本文所述的方法和/或系统不限于上文所述的示例实施例。本领域技术人员可以对本发明的实施方式做出多种修改而不脱离请求保护的主题的实质或范围。

Claims

1.一种网络动态内容抓取方法，其特征在于，所述方法包括下述步骤：

(2)提取所获取的目标网页中的指定区域中的动态内容；

2.根据权利要求1所述的方法，其特征在于，所述动态内容是动态滚动内容。

3.根据权利要求1所述的方法，其特征在于，所述目标网页是带有Ajax代码或引用外部Javascript脚本的动态网页。

4.根据权利要求1所述的方法，其特征在于，所述指定区域是通过选择器指定的目标网页中的网页片段或区块。

5.根据权利要求1所述的方法，其特征在于，所述缓存为抓取层缓存。

6.根据权利要求1所述的方法，其特征在于，通过比较提取到的动态内容生成的缓存文件是否存在于缓存中，通过比较提取到的动态内容的网页片段是否存在于缓存中，或者通过比较提取到的动态内容经渲染后得到的内容是否存在于缓存内部的树状结构中，来判断其是否存在于缓存中，其中缓存内部采用树状结构，动态内容经渲染后在缓存中的树状结构进行查找，通过树是否存在该节点来判断内容是否存在于缓存，进而判断该内容是否为更新内容。

7.根据权利要求1所述的方法，其特征在于，如果所述动态滚动内容为网页链接，则在上述步骤(4)中将所述网页链接指向的网页通过渲染固化到本地，以生成与所述动态滚动内容的链接所指向的网页的当前内容对应的静态内容。

8.根据权利要求1-7中的任一项所述的方法，其特征在于，还包括下述步骤：

9.一种网络动态内容爬虫系统，其特征在于，包括执行抓取任务的核心抓取引擎，所述核心抓取引擎包括：

选择器，其定位网页内容在网页或网页片段中的位置；

10.根据权利要求9所述的爬虫系统，其特征在于，还包括：

任务调度器，用于对抓取任务生命周期进行管理；及

任务加载器；