CN112597373B

CN112597373B - 一种基于分布式爬虫引擎的数据采集方法

Info

Publication number: CN112597373B
Application number: CN202011591563.4A
Authority: CN
Inventors: 陈思恩
Original assignee: Tech Valley Xiamen Information Technology Co ltd
Current assignee: Tech Valley Xiamen Information Technology Co ltd
Priority date: 2020-12-29
Filing date: 2020-12-29
Publication date: 2023-09-15
Anticipated expiration: 2040-12-29
Also published as: CN112597373A

Abstract

本发明公开了一种基于分布式爬虫引擎的数据采集方法，其包括以下步骤：S1、获取用户的任务创建请求并创建对应的数据采集任务；S2、构建分布式爬虫系统，对数据采集任务进行调度并触发任务执行，通过分布式爬虫系统分解数据采集任务，并分配给多个爬虫线程；S3、启动爬虫线程，分布式爬虫系统从队列资源获取URL，根据数据采集任务指定的目标网站爬取URL对应的页面，下载并获取页面数据；S4、对获取的页面数据进行整理清洗，生成与数据采集任务匹配的格式化数据集，并通过持久化处理后存储入数据库；本发明通过分布式部署爬虫集群的爬虫引擎，爬取目标网站的定向数据，提高了爬取效率及数据的精确度。

Description

一种基于分布式爬虫引擎的数据采集方法

技术领域

本发明涉及数据采集技术领域，尤其涉及一种基于分布式爬虫引擎的数据采集方法。

背景技术

信息网络技术的高速更新发展，带来了网络信息量的爆炸增长，在网络信息量如此庞大的时代，如何快速、针对性获取用户所需的网络信息成了人们所关注的问题并促使了搜索引擎的诞生，如爬虫。

搜索引擎就是根据用户需求与一定算法，运用特定策略从互联网检索出制定信息反馈给用户的一门检索技术，对信息进行组织和处理后提供给用户。爬虫引擎是一种自动浏览网络，分析网页内容的一种搜索引擎，但是爬虫引擎采集的数据通常为单机爬取，对于大量的网络信息量进行采集效率过低，传统爬虫采集回来的数据存储在数据库中，数据库量小，难以满足用户的使用需求。

发明内容

本发明的目的在于提供一种基于分布式爬虫引擎的数据采集方法，通过分布式部署爬虫集群的爬虫引擎，爬取目标网站的定向数据，提高了爬取效率及数据的精确度。

为实现上述目的，本发明采用以下技术方案：

一种基于分布式爬虫引擎的数据采集方法，包括以下步骤：

S1、获取用户的任务创建请求并创建对应的数据采集任务；

S2、构建分布式爬虫系统，对数据采集任务进行调度并触发任务执行，通过分布式爬虫系统分解数据采集任务，并分配给多个爬虫线程；

S3、启动爬虫线程，分布式爬虫系统从队列资源获取URL，根据数据采集任务指定的目标网站爬取URL对应的页面，下载并获取页面数据；

S4、对获取的页面数据进行整理清洗，生成与数据采集任务匹配的格式化数据集，并通过持久化处理后存储入数据库。

进一步地，所述分布式爬虫系统包括队列资源模块、下载模块、数据解析模块及数据存储模块；

所述队列资源模块，用于根据数据采集任务生成队列资源到redis中并从中获取目标网站的URL；

所述下载模块，用于将所述URL发送至下载模块，以使下载模块下载URL对应的页面数据；

所述数据解析模块，用于解析页面数据并生成与数据采集任务匹配的格式化数据集；

所述数据存储模块，用于持久化处理格式化数据集并存储在数据库。

进一步地，所述数据采集任务生成队列资源到redis中并从中获取目标网站的URL，具体包括：

所述分布式爬虫系统通过调度器读取数据采集任务的爬虫任务及爬虫资源；

所述队列资源存储在数据库中，分布式爬虫系统通过分页排序查询数据库，生成队列资源并分批次放入redis用于集群爬虫消费。

进一步地，所述redis中的队列资源经过集群爬虫消费后再次放入redis，通过单线程操作队列资源，并对放入redis的队列资源进行用于防止队列资源重复放入的加锁。

进一步地，所述调度器采用quartz调度器，通过所述quartz调度器周期性或手动地触发爬虫任务并生成调度日志。

进一步地，所述URL发送至下载模块，以使下载模块下载URL对应的页面数据，具体包括：

所述下载模块通过phantomjs无头浏览器配合多个代理IP根据URL爬取目标网站的页面，通过httpclient请求下载相应的页面数据，得到html页面。

进一步地，所述步骤S3中的页面数据为非标签化数据，通过步骤S4数据存储模块对非标签化数据进行整理清洗，具体包括：

获取字典库；

将分布式爬虫系统获取的页面数据录入字典库；

分别对页面数据依次进行文本纠错、词法分析、关键词提取及词义相似度分析，将相似度超过阈值的页面数据归为同一类，匹配相似度高的字典数据并存入数据库；

相似度不超过阈值则生成新的字典数据，并将新的字典数据存在字典库，页面数据存入数据库。

采用上述技术方案后，本发明与背景技术相比，具有如下优点：

本发明通过分布式爬虫系统根据数据采集任务从队列资源获取URL，启动线程，通过集群爬虫根据URL爬取目标网站的页面数据，对获取到的页面数据进行整理清洗，得到持久化的格式化数据集并存入数据库；通过分布式部署爬虫集群的爬虫引擎，爬取目标网站的定向数据，提高了爬取效率及数据的精确度。

附图说明

图1为本发明工作流程示意图；

图2为本发明具体工作流程示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

实施例

配合图1及图2所示，本发明公开了一种基于分布式爬虫引擎的数据采集方法，包括以下步骤：

S1、获取用户的任务创建请求并创建对应的数据采集任务。

S2、构建分布式爬虫系统，对数据采集任务进行调度并触发任务执行，通过分布式爬虫系统分解数据采集任务，并分配给多个爬虫线程。

S3、启动爬虫线程，分布式爬虫系统从队列资源获取URL，根据数据采集任务指定的目标网站爬取URL对应的页面，下载并获取页面数据。

分布式爬虫系统包括队列资源模块、下载模块、数据解析模块及数据存储模块。

分布式爬虫系统基于分布式爬虫引擎去爬取网页信息，爬虫采用Selenium+ChromeDriver框架模拟浏览器操作行为，实现特定网站的数据采集。

Selenium是一个开源的自动化测试工具，基于标准的WebDriver语法规范，它主要是用于Web应用程序的自动化测试，不只局限于此，同时支持所有基于web的管理任务自动化。Selenium测试直接运行在浏览器中，就像真正的用户在操作一样，支持的浏览器包括IE(7,8,9,10,11)，Mozilla Firefox，Safari，Google Chrome，Opera等，支持主流的编程语言，包括：Java、Python、C#、PHP、Ruby、JavaScript等。

WebDriver是一个开源工具，用于在许多浏览器上自动测试webapps。它提供了导航到网页，用户输入，JavaScript执行等功能。

ChromeDriver是Google为网站开发人员提供的自动化测试接口，是一个独立的服务，它为Chromium实现WebDriver的JsonWireProtocol协议。它是Selenium和Chrome浏览器进行通信的桥梁。Selenium通过JsonWireProtocol协议和ChromeDriver进行通信，Selenium实质上是对这套协议的底层封装，同时提供外部WebDriver的上层调用类库。

队列资源模块，用于根据数据采集任务生成队列资源到redis中并从中获取目标网站的URL。

下载模块，用于将URL发送至下载模块，以使下载模块下载URL对应的页面数据。

数据解析模块，用于解析页面数据并生成与数据采集任务匹配的格式化数据集。

数据存储模块，用于持久化处理格式化数据集并存储在数据库。

数据采集任务生成队列资源到redis中并从中获取目标网站的URL，具体包括：

分布式爬虫系统通过调度模块的调度器读取数据采集任务的爬虫任务及爬虫资源，由运维人员通过web应用进行定义调度任务，调度模块的触发通过运维人员的手动触发或者系统的定时触发，将爬虫任务进行分解多个爬虫作业并进行分发给不同的爬虫引擎；调度器从ZooKeeper&Redis获取元数据&可利用资源。

队列资源存储在数据库中，分布式爬虫系统通过分页排序查询数据库，生成队列资源并分批次放入redis用于集群爬虫消费。

redis中的队列资源经过集群爬虫消费后再次放入redis，通过单线程操作队列资源，并对放入redis的队列资源进行用于防止队列资源重复放入的加锁。

调度器采用quartz调度器，通过quartz调度器周期性或手动地触发爬虫任务并生成调度日志。

URL发送至下载模块，以使下载模块下载URL对应的页面数据，具体包括：爬虫启动时，从队列资源中获取到并转换成URL后调用的模块，根据URL模拟浏览器浏览行为爬取URL对应的页面，下载模块通过phantomjs无头浏览器配合多个代理IP，如图2所示的IP1-IP3，根据URL爬取目标网站的页面，进行请求数据后接受返回数据，通过httpclient请求下载相应的页面数据，得到html页面；该模块具有代理防屏蔽功能，通过多个代理避免了固定代理所带来的问题。

数据解析模块在页面数据下载完成后，需要对html页面进行数据解析，生成任务需要的格式化数据集，根据不同的任务，需要编写不同数据解析处理器进行数据解析，因此，对任务进行扩展，该部分模块随之会变大。

数据存储模块，在数据解析格式化后，需要把格式化后的数据持久化，供任务分析使用，数据格式化及持久化的方式为常用技术手段，本实施例在此不再赘述，根据不同持久化需求，实现该模块持久化相应代码，能做到存储格式化数据到不同的数据仓库。

步骤S3中的页面数据为非标签化数据，通过步骤S4数据存储模块对非标签化数据进行整理清洗，具体包括：

获取字典库；预先对需要标准化的数据维度创建好字典数据，字典库支持手动维护。

将分布式爬虫系统获取的页面数据录入字典库；录入字典库的方式具有3种方式，第一种是选择字典方式，从字典库获取字典信息，如果要录入的信息在字典库里面，直接选择字典，数据直接存入数据库，录入结束；第二种是手动录入方式，在字典库里面没有的数据，直接手动填入，然后进行标准化处理；第三种是通过分布式爬虫系统获取数据，然后进行标准化处理。

通过分布式爬虫系统获取数据，然后进行标准化处理，分别对页面数据依次进行文本纠错、词法分析、关键词提取及词义相似度分析，将相似度超过阈值的页面数据归为同一类，匹配相似度高的字典数据并存入数据库。

文本纠错为识别输入文本中有错误的片段，并提示错误，在录入的时候先过滤纠错，避免出现文字录错的情况；词法分析。主要包括分词、词性标注、专名识别分词，能够识别出文本串中的基本词汇(分词)，对这些词汇进行重组、标注组合后词汇的词性，并进一步识别出命名实体；通过对文本内容进行深度分析，提取出文本内容中的关键信息，为用户实现诸如新闻内容关键词自动提取、评论关键词提取等提供基础服务；相似度不超过阈值则生成新的字典数据，并将新的字典数据存在字典库，页面数据存入数据库。

对数据进行整理清洗，主要是对数据进行标准化处理，包括过滤、校验等处理。主要是针对所属行业、技术指标、技术来源等需要进行统计分析的指标等数据进行标准化。主要用到NLP(自然语言)技术，包括分词、词性标注、关键词提取、相似度等，以第三方自然语言处理开放接口(如百度AI开放平台、腾讯文智、Bosonnlp等)、开源自然语言处理库(如HanLP、jieba、Ansj等)实现。

本实施例通过分布式爬虫系统根据数据采集任务从队列资源获取URL，启动线程，通过集群爬虫根据URL爬取目标网站的页面数据，对获取到的页面数据进行整理清洗，得到持久化的格式化数据集并存入数据库；通过分布式部署爬虫集群的爬虫引擎，爬取目标网站的定向数据，提高了爬取效率及数据的精确度。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

1.一种基于分布式爬虫引擎的数据采集方法，其特征在于，包括以下步骤：

S1、获取用户的任务创建请求并创建对应的数据采集任务；

S4、对获取的页面数据进行整理清洗，生成与数据采集任务匹配的格式化数据集，并通过持久化处理后存储入数据库；

所述步骤S3中的页面数据为非标签化数据，通过步骤S4数据存储模块对非标签化数据进行整理清洗，具体包括：

获取字典库；

将分布式爬虫系统获取的页面数据录入字典库；

相似度不超过阈值则生成新的字典数据，并将新的字典数据存在字典库，页面数据存入数据库；

所述分布式爬虫系统包括队列资源模块、下载模块、数据解析模块及数据存储模块；

所述数据存储模块，用于持久化处理格式化数据集并存储在数据库；

所述数据采集任务生成队列资源到redis中并从中获取目标网站的URL，具体包括：

所述队列资源存储在数据库中，分布式爬虫系统通过分页排序查询数据库，生成队列资源并分批次放入redis用于集群爬虫消费；

所述redis中的队列资源经过集群爬虫消费后再次放入redis，通过单线程操作队列资源，并对放入redis的队列资源进行用于防止队列资源重复放入的加锁。

2.如权利要求1所述的一种基于分布式爬虫引擎的数据采集方法，其特征在于：所述调度器采用quartz调度器，通过所述quartz调度器周期性或手动地触发爬虫任务并生成调度日志。

3.如权利要求1所述的一种基于分布式爬虫引擎的数据采集方法，其特征在于：所述URL发送至下载模块，以使下载模块下载URL对应的页面数据，具体包括：