CN111222027A

CN111222027A - 基于微服务架构的分布式网络爬虫数据提取系统及方法

Info

Publication number: CN111222027A
Application number: CN202010002302.8A
Authority: CN
Inventors: 葛又嘉; 章韵
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2020-01-02
Filing date: 2020-01-02
Publication date: 2020-06-02

Abstract

本发明提出了一种基于微服务架构的分布式网络爬虫数据提取系统及方法，通过当前业界比较前沿的微服务架构理念，将整个爬虫系统拆分成数据提取模块，请求预处理模块，数据分布式存储模块，下载模块等，基于这套系统和云架构，用户可以实现分布式爬虫系统的快速部署，支持水平扩展和容器化部署，可以大大提升爬虫系统的可拓展性及快速部署的能力。

Description

基于微服务架构的分布式网络爬虫数据提取系统及方法

技术领域

本发明涉及一种基于微服务架构的分布式网络爬虫数据提取系统及方法，属于大数据分布技术领域。

背景技术

随着网络在人们生活中的日益普及，也催生出了越来越多的新技术，而网络爬虫就是其中一项运用相当广泛的技术，据统计，当今网络世界中的将近80%的流量来自于各大互联网公司或者个人开发者所开发的网络爬虫。随着网页技术的日益发展，互联网上的数据也随之呈现出爆炸式的增长速度，与此同时，人们对网页信息提取的要求越来越高，对信息抓取的专业性与通用性的要求也越来越高，从而催生出了种类繁多的爬虫系统，当前的爬虫系统根据其体系结构的不同可以区分成通用抓取型爬虫，特定领域垂直爬虫，深度URL（uniform resource locator，统一资源定位系统）抓取爬虫等不同类型。网络爬虫的主要原理是通过给定的URL链接去模拟用户访问页面，将被访问页面的数据下载到本地，并且根据指定的提取策略在所爬取道德页面信息中获取所需的关键信息，并对获取到的URL链接进行深度爬取。

随着软件开发架构的日益演进，人们提出了一种全新的软件开发架构，这种理念被称为微服务开发理念，通常而言，微服务是一种软件架构的思想和风格，其核心理念是将原本的一站式应用依据其不同功能划分成一组小的服务，从而彻底的实现跨耦合，每个服务运行在自己的进程中，服务与服务之间通过一些轻量级的通信方式进行相互通信，甚至于各个服务可以使用不同的语言进行开发，而对整个微服务系统就可以通过一个完善的监控平台去实现全链路监控，尤其是在开发一个分布式爬虫系统时，可以将整个爬虫系统依据其各个子模块的功能不同去划分出不同的微服务模块，例如请求调度微服务，页面下载微服务，请求预处理微服务等。同时，通过在各个服务之间采用的熔断措施，避免出现传统软件架构中某部分业务逻辑崩溃而导致整个系统不可用的场景，从而大大提高系统的可靠性。

目前传统的网络爬虫系统，功能模块划分不清晰，功能与功能之间耦合度较高，且面对大数据量时无法具备高效的数据吞吐与爬取效率并重。功能与功能之间不存在类似微服务模块之间的隔离划分与系统熔断处理，从而导致存在若一部分功能逻辑崩溃后导致整个系统雪崩的可能性。

发明内容

本发明所要解决的技术问题是，克服现有技术的不足而提供一种大数据场景下基于微服务架构的分布式网络爬虫数据提取系统及方法，针对目前的传统网络爬虫系统，本发明一方面通过微服务架构的解耦可以使得功能模块的划分更清晰，利用微服务架构相关技术可以避免一部分功能逻辑崩溃从而导致的系统整体雪崩，另一方面结合了消息队列和文档数据库的使用，可以大大提升爬虫系统的整体吞吐性能。

本发明提供一种基于微服务架构的分布式网络爬虫数据提取系统，包括数据提取模块、请求预处理模块、数据分布式存储模块和下载模块；数据提取模块，用于将下载下来的页面信息根据用户指定的数据提取规则从中提取出指定信息；请求预处理模块，用于通过负载均衡算法将爬虫任务请求投递至消息队列中；数据分布式存储模块，用于将解析后的页面数据存放至MongoDB这样的文档型数据库中；下载模块，用于从消息队列中取出相应的爬虫任务，从数据池中取出相应数据组装成完整的爬虫请求，通过模块中的多线程下载器开启下载，并将下载得到的页面信息写入消息队列中。

本发明通过微服务与爬虫系统的相结合，开发出一个高性能，易监控，高可靠性的分布式爬虫系统。该系统通过当前业界比较前沿的微服务架构理念，将整个爬虫系统拆分成数据提取模块，请求预处理模块，数据分布式存储模块，页面解析模块等，基于这套系统和云架构，用户可以实现分布式爬虫系统的快速部署，支持水平扩展和容器化部署，可以大大提升爬虫系统的可拓展性及快速部署的能力。

本发明的整个系统中各个模块彼此之间互相隔离，模块与模块之间通过HTTP（hypertext transfer protocol，超文本传输协议）或者RPC（Remote Procedure Call，远程过程调用）通信，并且各个模块之间基于spring cloud hystrix做了服务熔断处理，一但有模块发生奔溃，因为熔断处理中存在的断路器模型，可以保证其他模块不发生雪崩式服务失败。

本发明还提供一种基于微服务架构的分布式网格爬虫数据提取方法，包括以下步骤：

S01、用户在可视化界面提交爬虫任务数据；

S02、请求预处理模块采用负载均衡算法将爬虫任务信息投递至消息队列；

S03、将页面提取规则以及步骤S02中生成的全局唯一ID作为缓存对象缓存至内存数据库中；

S04、下载模块根据任务信息抓取页面数据；

S05、将下载模块抓取到的页面信息写入消息队列中，同时更新爬虫任务状态；

S06、页面解析模块从消息队列中提取页面信息，然后使用jsoup（是一款Java 的HTML解析器）进行解析，并将解析后的数据存储到数据库中；

S07、爬虫控制台可视化数据展示。

本发明进一步优化的技术方案如下：

在步骤S01中，用户从可视化界面上输入指定爬取的URL路径，同时用户确定该类型页面所要提取的字段属性及提取规则，提取规则支持CSS和XPath两种主流提取规则，指定爬取的URL路径以及该类型页面所要提取的字段属性和提取规则等组成爬虫任务数据。

在步骤S02中，请求预处理模块获取对应的请求体信息，并在请求预处理模块对该请求进行过滤，然后将URL路径信息以及生成的一个全局唯一ID写入消息队列，依赖负载均衡算法将请求分散到不同机器上。

本发明使用消息队列，大大提升了整体系统的吞吐量，各个模块之间做到了解耦，彼此作为生产端生产数据和消费端消费数据，而消息队列则作为存放数据的载体。

在步骤S04中，下载模块作为消费端从消息队列中不断获取到爬取页面信息，并根据该信息的URL类型从cookie池和user-agent池获取到对应的数据（即下载模块从数据池中获取user-agent和cookie值），user-agent值和cookie值同URL组合成完整的请求头数据，在下载模块中内置了一个线程池，可以开启多线程下载，最大程度上利用机器资源。

本发明在应对网站反爬的措施场景下，通过维护一个cookie池和user-agent池，通过轮训算法，从池中取出数据组合至请求头，从而加大爬取的成功率。

在步骤S06中，页面解析模块从消息队列中获取步骤S04抓取到的页面信息，并且页面解析模块从Redis（键值对类型数据库）中根据ID取出该页面对应的数据提取规则（即从缓存中获取页面信息解析规则），使用jsoup（HTML文件解析工具）进行解析，并将解析后的数据储到MongoDB这样的文档型数据库中。这样，在爬虫系统中会存在海量爬取下来的页面数据信息，针对这类文档型信息，采用了业界开源的MongoDB数据库存储。

在步骤S07中，用户在可视化界面上看到各自爬虫任务的运行状况和数据提取结果。

本发明采用以上技术方案与现有技术相比，具有以下技术效果：

1.针对目前的传统网络爬虫系统，本发明通过微服务架构的解耦可以使得功能模块的划分更清晰；

2.利用微服务架构相关技术可以避免一部分功能逻辑奔溃从而导致的系统整体雪崩；

3.通过在系统中整合消息队列和文档数据库的使用，可以大大提升爬虫系统的整体吞吐性能。

附图说明

图1为本发明的基于微服务架构的分布式网络爬虫数据提取系统的整体流程图。

具体实施方式

下面结合附图对本发明的技术方案做进一步的详细说明：本实施例在以本发明技术方案为前提下进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护权限不限于下述的实施例。

本实施例提出了一种基于微服务架构的分布式网络爬虫数据提取系统，包括数据提取模块、请求预处理模块、数据分布式存储模块和下载模块。数据提取模块，主要作用是：将下载下来的页面信息根据用户指定的数据提取规则从中提取出指定信息。请求预处理模块，主要作用是：通过负载均衡算法将爬虫任务请求投递至消息队列中。数据分布式存储模块，主要作用是：将解析后的页面数据存放至MongoDB这样的文档型数据库中。下载模块，主要作用是：从消息队列中取出相应的爬虫任务，从数据池中取出相应数据组装成完整的爬虫请求，通过模块中的多线程下载器开启下载，并将下载得到的页面信息写入消息队列中。

本实施例的整个系统中上述各个模块彼此之间互相隔离，模块与模块之间通过HTTP（hypertext transfer protocol，超文本传输协议）或者RPC（Remote ProcedureCall，远程过程调用）通信，并且各个模块之间基于spring cloud hystrix做了服务熔断处理，一但有模块发生奔溃，因为熔断处理中存在的断路器模型，可以保证其他模块不发生雪崩式服务失败。

本实施例还提供一种基于微服务架构的分布式网格爬虫数据提取方法，包括以下步骤：

S01、用户在可视化界面提交爬虫任务数据。

用户从可视化界面上输入指定爬取的URL路径，同时用户确定该类型页面所要提取的字段属性及提取规则，提取规则支持CSS pattrn和XPath两种主流提取规则，指定爬取的URL路径以及该类型页面所要提取的字段属性和提取规则等组成爬虫任务数据。这样，通过可视化平台页面用户自定义待爬取的URL路径和页面信息提取规则，并将这些信息包装成一个request（任务）对象提交至请求预处理模块。

S02、请求预处理模块采用负载均衡算法将爬虫任务信息投递至消息队列。

请求预处理模块获取对应的请求体信息，并在请求预处理模块对该请求进行过滤，然后将URL路径信息以及生成的一个全局唯一ID写入消息队列，依赖负载均衡算法将请求分散到不同机器上。

因为本实施例的系统是对外开放的，所以会存在大量用户同时提交爬虫请求的场景出现，因此本系统设计了一个请求预处理模块作为网关层，请求预处理模块会采用一种根据响应时间权重来进行请求分发的负载均衡算法，将大量的爬虫请求分散到不同的部署了下载模块的机器上。该算法的计算公式为:

O_i=σ(W[h_i-s , …h_i , …, h_i+s])/ times

其中，O_i 为第i台机器的服务注册号，σ为机器编号哈希计算函数，h为各台机器之前所接受的请求的响应时间，h_i 为第i台机器之前所接受请求的响应时间，times为所处理的请求树，从而计算出平均响应时间，W为计算最小值的函数，选出响应时间最少的那台机器作为此次该请求的处理机器。并且在请求预处理模块中，每一个爬虫请求会生成一个全局唯一的分布式ID。

S03、将页面提取规则以及步骤S02中生成的全局唯一ID作为缓存对象缓存至内存数据库中。即步骤S02中生成的ID作为每个crawlerjob的唯一标识同每个crawler job的数据提取规则写入Redis。

S04、下载模块根据任务信息抓取页面数据。

下载模块作为消费端从消息队列中不断获取到爬取页面信息，并根据该信息的URL类型从cookie池和user-agent池获取到对应的数据（即下载模块从数据池中获取user-agent和cookie值），user-agent值和cookie值同URL组合成完整的请求头数据，在下载模块中内置了一个线程池，可以开启多线程下载，最大程度上利用机器资源。

当步骤S03中的爬虫请求下发到下载模块时，下载模块从cookie池和user-agent池中取出相关数据，组合成一个模拟请求，在下载模块中开启多线程爬取。

S05、将下载模块抓取到的页面信息写入消息队列中，同时更新爬虫任务状态。

步骤S04中下载成功的页面信息会被写入消息队列中，消息队列作为一种高吞吐量的中间件，可以在系统层面解耦，从而可以自定义控制消费端的消费速度，防止出现大量爬虫任务的堆积，导致系统超出负载。

S06、页面解析模块从消息队列中提取页面信息，然后使用jsoup（是一款Java 的HTML解析器）进行解析，并将解析后的数据存储到数据库中。

页面解析模块从消息队列中按需获取下载下来的页面信息，并且页面解析模块根据步骤S02中生成的唯一ID从Redis中取出该页面对应的数据提取规则（即从缓存中获取页面信息解析规则），利用jsoup从返回的纯文本中提取出用户的所需信息，并将提取出来的信息存储到文档型数据库MongoDB中。

S07、爬虫控制台可视化数据展示。

用户在可视化界面上看到各自爬虫任务的运行状况和数据提取结果。

以上所述，仅为本发明中的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉该技术的人在本发明所揭露的技术范围内，可理解想到的变换或替换，都应涵盖在本发明的包含范围之内，因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种基于微服务架构的分布式网络爬虫数据提取系统，其特征在于：包括数据提取模块、请求预处理模块、数据分布式存储模块和下载模块；数据提取模块，用于将下载下来的页面信息根据用户指定的数据提取规则从中提取出指定信息；请求预处理模块，用于通过负载均衡算法将爬虫任务请求投递至消息队列中；数据分布式存储模块，用于将解析后的页面数据存放至数据库中；下载模块，用于从消息队列中取出相应的爬虫任务，从数据池中取出相应数据组装成完整的爬虫请求，通过模块中的多线程下载器开启下载，并将下载得到的页面信息写入消息队列中。

2.一种基于微服务架构的分布式网格爬虫数据提取方法，其特征在于，包括以下步骤：

S01、用户在可视化界面提交爬虫任务数据；

S04、下载模块根据任务信息抓取页面数据；

S06、页面解析模块从消息队列中提取页面信息，然后使用jsoup进行解析，并将解析后的数据存储到数据库中；

S07、爬虫控制台可视化数据展示。

3.根据权利要求2所述基于微服务架构的分布式网格爬虫数据提取方法，其特征在于，在步骤S01中，用户从可视化界面上输入指定爬取的URL路径，同时用户确定该类型页面所要提取的字段属性及提取规则，指定爬取的URL路径以及该类型页面所要提取的字段属性和提取规则等组成爬虫任务数据。

4.根据权利要求2所述基于微服务架构的分布式网格爬虫数据提取方法，其特征在于，在步骤S02中，请求预处理模块获取对应的请求体信息，并在请求预处理模块对该请求进行过滤，然后将URL路径信息以及生成的一个全局唯一ID写入消息队列，依赖负载均衡算法将请求分散到不同机器上。

5.根据权利要求2所述基于微服务架构的分布式网格爬虫数据提取方法，其特征在于，在步骤S04中，下载模块作为消费端从消息队列中不断获取到爬取页面信息，并根据该信息的URL类型从cookie池和user-agent池获取到对应的数据，同URL组合成完成的请求头数据，在下载模块中内置了一个线程池，可以开启多线程下载，最大程度上利用机器资源。

6.根据权利要求2所述基于微服务架构的分布式网格爬虫数据提取系统及方法，其特征在于，在步骤S06中，页面解析模块从消息队列中获取步骤S04抓取到的页面信息，并且页面解析模块从Redis（键值对类型数据库）中根据ID取出该页面对应的数据提取规则，使用jsoup（html文本解析工具）进行解析，并将解析后的数据储到MongoDB文档型数据库中。

7.根据权利要求2所述基于微服务架构的分布式网格爬虫数据提取方法，其特征在于，在步骤S07中，用户在可视化界面上看到各自爬虫任务的运行状况和数据提取结果。