CN109033115B

CN109033115B - 一种动态网页爬虫系统

Info

Publication number: CN109033115B
Application number: CN201710440709.7A
Authority: CN
Inventors: 刘少鹏; 马震远; 方浩生; 林智勇; 李俊
Original assignee: Guangdong Polytechnic Normal University
Current assignee: Guangdong Polytechnic Normal University
Priority date: 2017-06-12
Filing date: 2017-06-12
Publication date: 2021-02-19
Anticipated expiration: 2037-06-12
Also published as: CN109033115A

Abstract

本发明提供了一种动态网页爬虫系统，包括爬虫引擎、调度器、解析模块、项目管道、下载器，所述解析模块包括脚本解析器、渲染器、切换模块，所述脚本解析器通过构建出动态网页的请求规则、解析动态网页中的所有文件并且提取动态网页的内容交给项目管道；所述渲染器通过加载动态网页的异步加载信息构建出完整的动态网页DOM树，并通过模拟操作，获取动态网页内容；所述切换模块检测脚本解析器或渲染器解析动态网页所花费的时间和解析出的内容是否完整，若所需时间超过阈值或内容不完整，则进行切换。本发明提供的爬虫系统采用不同的爬取方法来爬取动态网页，爬取效率高，内存和网络网络资源占用低，具有自适应、智能化的特点。

Description

一种动态网页爬虫系统

技术领域

本发明属于计算机领域，涉及爬虫系统，特别涉及一种动态网页爬虫系统。

背景技术

网络爬虫是一个自动提取网页的程序，传统爬虫从一个或若干初始网页的URL开始，获得初始网页上的URL(Uniform Resource Locator统一资源定位符)，在抓取网页的过程中，不断从当前页面上抽取新的URL放入队列，直到满足系统预设的停止条件。

随着互联网从Web1.0时代迅速进入Web2.0时代，基于Ajax(AsynchronousJavaScript and XML)的动态页面加载技术成为了各大公司的首选。伴随着移动互联网的兴起，JavaScript在移动端和PC客户端的优良特性被广泛挖掘，基于前端MVC/MVM的模式逐渐进入各大互联网公司的首选解决方案。动态网页的急剧攀升让基于动态Web页面的网络爬虫将越来越重要。

例如，某网站http://study.domain.com/course/courseLearn.htm？courseId＝ID＃/learn/video？lessonId＝LESSONID&c。通常动态URL对应的动态页面，问号、等号等字符后面所跟的参数就是所需要查询的数据库数据。要获取动态页面的数据，一般采用脚本解析或利用浏览器对动态网页进行渲染来获取动态网页内容，然而脚本解析的前提是建立在目标动态网页信息部分或全部存在于异步加载信息，请求规则可获取、目标页面呈规律性分布；利用浏览器进行渲染也只能针对不完整的DOM(Document Object Model文档对象模型)数据结构、目标信息部分或全部存在于利用浏览器进行渲染针对不完整的DOM数据结构、目标信息部分或全部存在于渲染后的网页且目标网页动态信息呈结构性分布。

发明内容

为解决脚本解析和浏览器渲染的局限性，提高动态网页爬取的准确率和完整性，本发明提供了一种基于Scrapy(Scrapy是基于Python开发的一个快速，高层次的屏幕抓取和web抓取框架)的动态网页爬虫系统，包括爬虫引擎、调度器、解析模块、项目管道、下载器，所述爬虫引擎，用于处理数据流，触发事务；

所述调度器，用于接收爬虫引擎或解析模块发出的请求，将请求压入队列中调度下载器进行下载，并在爬虫引擎再次请求的时候返回；

所述解析模块，用于构建或解析动态网页的异步加载信息，分析从下载器提取网页中的数据元素；

所述项目管道，用于处理由解析器从网页中抽取的数据或响应爬虫引擎的请求；

所述下载器，用于响应调度器的任务请求并下载网页内容，并将网页内容返回给解析器；

所述解析模块包括脚本解析器、渲染器、切换模块；

所述脚本解析器通过网络抓包工具搜索和查询动态信息的文件类型，根据动态信息的文件类型对动态信息文件的结构进行建模，构建出动态网页的请求规则、解析动态网页中的所有文件并且提取动态网页的内容交给项目管道；若解析失败，则由交由切换模块处理；

所述渲染器通过加载动态网页的异步加载信息构建出完整的动态网页DOM树，并通过模拟操作，解析出动态网页中的从服务器返回的异步加载内容直至完整提取动态网页内容，若解析失败则交由切换模块转向脚本解析器处理；

所述切换模块检测脚本解析器或渲染器解析动态网页所花费的时间和解析出的内容是否完整，若所需时间超过阈值或内容不完整，则进行切换。

作为本发明的优选方案，所述渲染器为无界面浏览器。

作为本发明的优选方案，所述无界面浏览器包括selenium、splash、htmlunit、phantomjs。在本发明的一个实施例中，所述无界面浏览器采用splash渲染容器对动态网页进行渲染。

为避免采用动态解析或利用浏览器进行渲染提取动态网页的盲目性，在本发明的一个实施例中，所述解析模块还包括预解析模块，所述预解析模块通过从URL库中随机抽取样本然后交由脚本解析器或渲染器进行爬取，记录爬取信息的完整度、爬取时间、资源消耗。

本发明的第二方面的目的在于提供一种动态网页提取方法，包括如下步骤：

S1：获取URL库，对URL库进行聚类分析，若存在聚类则进行步骤S2，若不存在聚类结束；

S2：从聚类中至少抽取一个随机抽取样本URL；

S3：分别采用脚本解析、渲染或采用脚本解析与渲染混合的方式对URL进行爬取；

S4：记录爬取信息的完整度、爬取时间、资源消耗等信息，通过优先算法选出最优爬虫方案，使用最优方案爬取聚类中的所有动态网页；

S5：处理爬取信息，并执行步骤S1。

作为本发明的优选方案，所述脚本解析还包括：

根据动态网页或网址信息生成请求规则，通过服务器的验证获取访问权限，根据请求规则获取异步加载信息。

进一步的，所述通过服务器的验证包括cookie认证、用户认证、301认证、302认证、图片文字认证、IP认证。

作为本发明的优选方案，所述渲染包括：利用无界面浏览器渲染异步加载信息，使用无界面浏览器的API模拟用户点击，从模拟事件的结果中提取目标信息。

作为本发明的优选方案，所述脚本解析与渲染混合的具体步骤为：通过脚本解析得出动态网页的请求规则，然后通过无界面浏览器加载采用脚本解析缺失的渲染参数，构建出完整的请求规则直至获取完整的异步加载信息。

作为本发明的优选方案，所述S4中的优先算法具体为：将提取后的动态页面提取信息的完整度，时间、资源消耗率作为变量采用单纯形法求出最优解。

本发明的有益效果是：

1.本发明是分析目前大部分网站的动态网页的结构和常规的动态页面的爬取方法，利用脚本解析的资源消耗低、速度快的优势，综合Web Driver在渲染方面的优势，提高爬虫的爬取准确率和自适应性。

2.设置一个切换模块，避免了采用单一爬取方法时遇到特殊情况而导致无法爬取陷入死循环的情况。

3.通过预先检测机制，对包含不同动态异步加载机制的动态网页采用不同的爬取策略，提高了解析的性能、减少内存和网络资源的占用，使得本发明所采用的方法在动态页面的爬取上更加自适应、智能化。

附图说明

图1是本发明的基本原理图；

图2是本发明的解析模块框架原理图；

图3是本发明的动态爬取方法的流程图；

图4是本发明采用脚本解析动态网页的流程图；

图5是本发明中采用脚本解析动态网页的通过服务器认证结的构图；

图6是本发明中采用脚本解析和渲染的流程图。

具体实施方式

为了更好的理解本发明所提出的技术方案，下面结合附图1-6和具体的实施例对本发明作进一步阐述。

如图1和图2所示，一种动态网页爬虫系统，包括爬虫引擎、调度器、解析模块、项目管道、下载器，

所述爬虫引擎，用于处理数据流，触发事务；

所述下载器，用于响应调度器的任务请求并下载网页内容，并将网页内容返回给解析器；所述解析模块包括脚本解析器、渲染器、切换模块，

在本发明的一个实施例中，选取切换阈值时间为150ms，即当脚本解析或渲染器解析动态页面超过150ms仍无法返回时，则切换器对未解析的URL所采用的方法进行切换。

在本发明的另一个实施例中，考虑到现有爬虫系统可以是分布式架构，解析的时间和资源消耗都可实现优化，因此切换器的切换条件考虑解析后的动态页面的信息是否完整。

在本发明的一个实施例中，所述渲染器为无界面浏览器，常见的无界面浏览器benv、browser、launcher、Browserjet、CasperJS、DalekJS Ghostbuster、HeadlessBrowser、HtmlUnit、Jasmine-Headless-Webkit、Jaunt、jBrowserDriver、jedi-crawler、Lotte、Nightmare、PhantomJS、Selenium、SlimerJS、trifleJS、Zombie.js。

进一步的，在本发明的实施例中，所述无界面浏览器包括selenium、splash、htmlunit、phantomjs。

更进一步地，在本发明的一个实施例中，采用selenium与webdriver或hantomjs结合的方法进行动态页面提取。

为避免采用动态解析或利用浏览器进行渲染的盲目性，在本发明的一个实施例中，所述解析模块还包括预解析模块，所述预解析模块通过从URL库中随机抽取样本然后交由脚本解析器或渲染器进行爬取，记录爬取信息的完整度、爬取时间、资源消耗。

如图4至图6所示，本发明还提供了一种基于上述动态网页爬虫系统的动态网页提取方法，包括如下步骤：

S2：从聚类中至少抽取一个随机抽取样本URL；

S5：处理爬取信息，并执行步骤S1。

作为本发明的优选方案，所述脚本解析还包括：根据动态网页或网址信息生成请求规则，通过服务器的验证获取访问权限，根据请求规则获取异步加载信息。进一步的，所述通过服务器的验证包括cookie认证、用户认证、301认证、302认证、图片文字认证、IP认证。

根据上述说明书的揭示和教导，本发明所属领域的技术人员还可以对上述实施方式的相关模块和软件架构做适应性变更和修改。因此，本发明并不局限于上面揭示和描述的具体实施方式，对发明的一些修改和变更也应当落入本发明的权利要求的保护范围内。此外，尽管本说明书中使用了一些特定的术语，但这些术语只是为了方便说明，并不对本发明构成任何限制。

Claims

1.一种动态网页爬虫系统，其特征在于，包括爬虫引擎、调度器、解析模块、项目管道、下载器，

所述爬虫引擎，用于处理数据流，触发事务；

所述下载器，用于响应调度器的任务请求并下载网页内容，并将网页内容返回给解析模块；

所述解析模块包括脚本解析器、渲染器、切换模块，

所述脚本解析器通过网络抓包工具搜索和查询动态信息的文件类型，根据动态信息的文件类型对动态信息文件的结构进行建模，构建出动态网页的请求规则、解析动态网页中的所有文件并且提取动态网页的内容交给项目管道；若解析失败，则交由切换模块处理；

2.根据权利要求1所述的动态网页爬虫系统，其特征在于，所述渲染器为无界面浏览器。

3.根据权利要求2所述的动态网页爬虫系统，其特征在于，所述无界面浏览器包括如下任一：selenium、splash、htmlunit、phantomjs。

4.根据权利要求1所述的动态网页爬虫系统，其特征在于，所述解析模块还包括预解析模块，所述预解析模块通过从URL库中随机抽取样本然后交由脚本解析器或渲染器进行爬取，记录爬取信息的完整度、爬取时间、资源消耗。