CN111767443A

CN111767443A - 一种高效的网络爬虫分析平台

Info

Publication number: CN111767443A
Application number: CN202010529230.2A
Authority: CN
Inventors: 刘瑞霞; 张奇志
Original assignee: Xian Shiyou University
Current assignee: Xian Shiyou University
Priority date: 2020-06-11
Filing date: 2020-06-11
Publication date: 2020-10-13

Abstract

本发明涉及一种高效的网络爬虫分析平台，其包括数据采集模块、数据存储模块、数据处理模块和数据分析模块，所述数据采集模块包括系统调度模块、URL管理模块、页面下载模块、页面解析模块和持久化模块。本发明有益效果将大数据技术和机器学习相结合，构造了一个全新的网络爬虫分析平台，一方面利用大数据技术中分布式系统架构的特点,提高了数据处理效率，实现对用户所需的有用信息快速高效准确的爬取，另一方面在爬取过程中加入了基于BP神经网络的反爬虫技术，缓解杂乱无章或者非法人员的爬虫对web网站造成的负面影响，保证网站的正常访问。整个过程，让网络爬虫变得更高效，更安全。

Description

一种高效的网络爬虫分析平台

技术领域

本发明涉及大数据平台以及安全网络爬虫领域，具体属于一种高效的网络爬虫分析平台。

背景技术

互联网的日趋发展，带来的是海量信息的迅速膨胀，各行各业的互联网公司和大型企业每天面临着PB，甚至是TB的数据量以及多种复杂的用户行为信息等。如何从海量的数据中获取所需的信息，是企业们普遍面临的重大挑战。大数据、人工智能和机器学习的出现，无疑为网络数据爬虫技术带来了便捷，然而，便捷的背后随之而来的问题也是不断出现。大数据的5V特点，如：数据量巨大、数据类型复杂、价值密度低、处理速度快、以及数据的准确性等，会让传统的集中式网络爬虫受到web页面覆盖率的限制，严重影响到数据爬取时间性能。另外，系统调度的能力不足，更是会直接导致系统爬行性能变差,一系列问题的出现，最终导致现有的爬虫技术无法满足用户越来越高的需求。其次，不同种类的网络爬虫，其技术含量也是格外的不同，使得爬虫市场出现混乱、泛滥。种种因素带来的是网络的安全隐患和个人隐私的泄露。最重要的是：杂乱无章或者非法人员的网络爬虫，会给web网站造成严重的负面影响。

发明内容

(一)解决的技术问题

为了解决现有技术的上述问题，本发明提供一种高效的网络爬虫分析平台。

(二)技术方案

为了达到上述目的，本发明采用的主要技术方案包括：

一种高效的网络爬虫分析平台，其包括数据采集模块、数据存储模块、数据处理模块和数据分析模块，所述数据采集模块包括系统调度模块、URL管理模块、页面下载模块、页面解析模块和持久化模块；

所述数据处理模块包括数据清洗模块、数据筛选模块和数据分类模块。

优选的，所述数据采集模块采用python中的scrapy框架构建一个网络爬虫系统，所述系统调度模块是系统运行的入口,负责整个爬虫系统的启动,该模块主要定义爬虫系统启动类和用于数据传递的实体类,所述的系统调度模块还可以根据网页内容判断网页类别,以及网页是否为安全页面，所述URL管理模块，是为了防止URL链接的重复爬取或者循环指向；实现方式：python的set数据结构，数据库中的数据表，缓存数据库Redis；所述页面下载模块是从web端抓取网页,具体是根据URL链接通过DNS查询获得网页所在服务器并与服务器建立连接,模拟HTTP请求获得响应进而下载网页内容,所述页面下载模块通过URL直接下载，并将URL对应的网页下载到本地或读入内存。所述页面下载模块也可通过Request或者Cookie访问下载；所述页面解析模块负责页面分析及链接提取,既可以通过自定义PageProcessor接口的实现类定制一个自己的垂直爬虫系统；所述页面解析模块包括两部分,一是提取出待抓取的URL链接,二是从页面提取出符合条件的目标数据,并将数据生成Dataltems实例；所述持久化模块，基于Redis的一种持久化的存储器关键字-值型存储。

优选的，所述数据存储模块根据待抓取链接库提供，所述数据存储模块设置一个单独存储位置，所述数据存储模块与数据采集模块的持久化模块连接。

优选的，所述数据清洗模块，使用python中的清洗规则清洗用户的数据信息；所述数据筛选模块对残缺数据、错误数据和重复数据进行筛选；所述数据分类模块将数据清洗和筛选后的数据进行传输分类处理。

优选的，所述数据分析模块对页面解析模块进行解析后的数据进行深度分析，且针对恶意爬取的信息用户，进行深度解剖以及采用反爬虫机制。

(三)有益效果

与现有技术相比，本发明提供了一种高效的网络爬虫分析平台，具备以下有益效果：将大数据技术和机器学习相结合，构造了一个全新的网络爬虫分析平台，一方面利用大数据技术中分布式系统架构的特点,提高了数据处理效率，实现对用户所需的有用信息快速高效准确的爬取，另一方面在爬取过程中加入了基于BP神经网络的反爬虫技术，缓解杂乱无章或者非法人员的爬虫对web网站造成的负面影响，保证网站的正常访问。整个过程，让网络爬虫变得更高效，更安全。

附图说明

图1为本发明模块连接结构示意图。

图中：1、数据采集模块；11、系统调度模块；12、URL管理模块；13、页面下载模块；14、页面解析模块；15、持久化模块；2、数据存储模块；3、数据处理模块；31、数据清洗模块；32、数据筛选模块；33、数据分类模块；4、数据分析模块。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，一种高效的网络爬虫分析平台，包括数据采集模块、数据存储模块、数据处理模块和数据分析模块，所述数据采集模块包括系统调度模块、URL管理模块、页面下载模块、页面解析模块和持久化模块；

本实施例中，进一步地，所述的数据采集模块采用python中的scrapy框架构建一个网络爬虫系统；

本实施例中，进一步地，所述系统调度模块，作为系统的核心调度模块,是系统运行的入口,负责整个爬虫系统的启动,该模块主要定义爬虫系统启动类和用于数据传递的实体类,可以传递其他模块对应的接口构造一个爬虫实例；

本实施例中，进一步地，所述的系统调度模块还可以根据网页内容判断网页类别,以及网页是否为安全页面。若用户请求为目标类型，则继续下一步的请求，爬取用户所需的有用信息，若用户请求为非目标类型，直接进行拦截恶意操作并跳出该页面。

本实施例中，进一步地，所述URL管理模块，是为了防止URL链接的重复爬取或者循环指向；实现方式：python的set数据结构，数据库中的数据表，缓存数据库Redis；

本实施例中，进一步地，所述页面下载模块，是爬虫系统的关键核心模块,主要是从web端抓取网页,具体是根据URL链接通过DNS查询获得网页所在服务器并与服务器建立连接,模拟HTTP请求获得响应进而下载网页内容,下载网页时可以利用多线程并行采集网页,同时可以充分利用大数据的MapReduce或者Spark计算模型；

本实施例中，进一步地，所述的页面下载模块还可以通过URL直接下载，并将URL对应的网页下载到本地或读入内存。也可通过Request或者Cookie访问下载；

本实施例中，进一步地，所述网页解析模块，用于从已下载的网页中爬取数据。主要负责页面分析及链接提取,既可以通过自定义PageProcessor接口的实现类定制一个自己的垂直爬虫系统。该模块的功能包括两部分,一是提取出待抓取的URL链接,二是从页面提取出符合条件的目标数据,并将数据生成Dataltems实例,传递给DataStore模块进行持续化储存，又可以直接采用BeautifulSoup解析HTML或XML。

本实施例中，进一步地，所述的持久化模块，基于Redis的一种持久化的存储器关键字-值型存储，可实现多台机器间的数据共享。按照预设路径和持久化规则将所述目标数据存储到大数据的分布式文件系统中。

综合来看，所述的数据采集模块，其作用有两点：一是用于爬取用户有用的信息数据；二是对杂乱无章或者非法人员的恶意爬取拦截处理。

所述数据存储模块,是根据待抓取链接库提供的,通过URL页面下载模块从互联网上抓取的网页存储在大数据的分布式分析系统HDFS上,然后传递给页面解析模块进行页面解析处理。

本实施例中，进一步地，所述的数据存储模块，还设置一个单独的存储位置，用于将爬取目标不符合要求的用户存储至爬虫黑名单。

本实施例中，进一步地，所述的数据存储模块，还与数据采集中的持久化模块相连，可共享数据。

综合来看，所述的数据存储模块，作用有两点：一是将所需的数据存储在大数据分布式系统上；二是用于将爬取目标不符合要求的用户存储至爬虫黑名单；

本实施例中，进一步地，所述的数据清洗模块，使用python中的一些清洗规则清洗用户所需的数据信息；

本实施例中，进一步地，所述的数据筛选模块，是对残缺数据、错误数据和重复数据进行筛选；其中，残缺数据的清洗过程为根据规则判断重要数据是否确实；错误数据的清洗过程为根据规则判断数据格式、数据边界；重复数据的清洗过程为判断相似度是否匹配，然后根据规则关键字权重匹配，最后将清洗完的数据按找替换方案的定义的规则进行处理，是丢弃还是替换；

本实施例中，进一步地，所述的数据分类模块，其实是将数据清洗和筛选后的数据传至这里，使用python进行分类操作；

本实施例中，进一步地，所述的数据分类模块的分类过程包括：首先根据数据来源和数据来源的关联关系进行初步分类；然后根据数据来源分类后，根据数据格式的相似度进行分类；其次根据用户定义的分类规则进行细分；并根据细分前和细分后的数据，进行对比调整；最后对每执行一次细分分类规则的操作类型增加权重；

综合来看，所述的数据处理模块，其作用是：使用python语言清洗，筛选出所需的有用数据，并对所需的信息数据进行分类汇总。

所述的数据分析模块，一是对页面解析模块进行解析后的数据进行深度分析，获取较全面的用户所需信息；二是针对恶意爬取的信息用户，进行深度解剖，确定是否判断有误以及采用反爬虫机制，有效防止误伤，降低误伤率，保障系统正常业务运行不受影响。

综上所述，该一种高效的网络爬虫分析平台，使用时，创建工程；

定义Item，构造爬取的对象(可选)；

编写spider，爬虫主体；

编写配置和pipeline，用于处理爬虫的结果(可选)；

执行爬虫；

所述系统调度模块，作为系统的核心调度模块,是系统运行的入口,负责整个爬虫系统的启动,该模块主要定义爬虫系统启动类和用于数据传递的实体类,可以传递其他模块对应的接口构造一个爬虫实例；还可以根据网页内容判断网页类别,以及网页是否为安全页面。若用户请求为目标类型，则继续下一步的请求，爬取用户所需的有用信息，若用户请求为非目标类型，直接通过BP神经网络算法进行拦截恶意操作并跳出该页面。

具体操作如下：

将BP神经网络部署于系统调度模块的服务器入口处，对远端爬虫请求特征进行识别学习，提取爬虫请求特征的特定内容，训练得到相应的神经网络模型与参数，利用神经网络模型与参数检测远端爬虫请求，输出当前远端爬虫访问为恶意爬虫的概率，并反馈至URL管理模块进行决策,最终把恶意爬取的用户信息传至数据存储模块中的黑名单。

进一步地，BP神经网络的操作流程如下：

1)通过关键词爬取部分网页,放入网页数据库中；

2)运用BP神经网络算法，计算出与爬取主题相关词汇的权值；

3)选取权值大于阈值的关键词，作为爬取主题词，构建主题词表；

4)运用主题爬虫，爬取下一个页面,找到网页中与主题词表相同的关键词,如果大于阈值，则下载到网页数据库中，否则丢弃；

5)重复上述步骤,达到需要爬取的数量。

所述URL管理模块，是为了防止URL链接的重复爬取或者循环指向；实现方式：python的set数据结构，数据库中的数据表，缓存数据库Redis(适用于大型互联网公司)；进一步地，所述的URL管理模块既可与上述的数据采集模块中的系统调度模块连接起到初步的决策作用，又可与数据存储模块相连，实现最终数据的存储。

所述URL下载模块，是爬虫系统的关键核心模块,主要是从web端抓取网页,具体是根据URL链接通过DNS查询获得网页所在服务器并与服务器建立连接,模拟HTTP请求获得响应进而下载网页内容,下载网页时可以利用多线程并行采集网页,同时可以充分利用大数据的MapReduce或者spark计算模型；

进一步地，所述的URL下载模块还可以通过URL直接下载，并将URL对应的网页下载到本地或读入内存。也可通过Request或者Cookie访问下载；

进一步地，所述的通过URL直接下载操作如下：

respose＝urllib.request.urlopen(url)

respose.getcode()

respose.read()

进一步地，所述的通过Request访问下载操作如下：

request＝urllib.request.Request(url)

request.add_head()

request.add_data()

respose＝urllib.urlopen(request)

进一步地，所述的通过Cookie访问下载操作如下：

使用http.cookiejar模块

cookie_jar＝http.cookiejar.CookieJar()

opener＝urllib.request.build_opener()

urllib.request.install_opener(opener)

respose＝urllib.request.urlopen(url)

所述网页解析模块，用于从已下载的网页中爬取数据。主要负责页面分析及链接提取,既可以通过自定义PageProcessor接口的实现类定制一个自己的垂直爬虫系统。该模块的功能包括两部分,一是提取出待抓取的URL链接,二是从页面提取出符合条件的目标数据,并将数据生成Dataltems实例,传递给DataStore模块进行持续化储存，又可以直接采用BeautifulSoup解析HTML或XML。

进一步地，采用BeautifulSoup解析HTML或XML时步骤如下：

创建BeautifulSoup对象；

bs＝BeautifulSoup(url,

html_parser,指定解析器

enoding指定编码格式(与网页编码格式一致)

)

查询节点

find,找到第一个满足条件的节点；

find_all,找到满足所有条件的节点。

bs.find_all()

进一步地，所述的URL下载模块上连URL管理模块，下与网页解析模块相连，三者相互作用，共同工作。

所述的持久化模块，基于Redis的一种持久化的存储器关键字-值型存储，可实现多台机器间的数据共享。按照预设路径和持久化规则将所述目标数据存储到大数据的分布式文件系统中。

所述数据存储模块,是根据待抓取链接库提供的,通过URL页面下载模块从互联网上抓取的网页存储在大数据的分布式分析系统HDFS上,然后传递给页面解析模块进行页面解析处理。还设置一个单独的存储位置，用于将爬取目标不符合要求用户存储至爬虫用户黑名单。

进一步地，所述的数据存储模块，还与数据采集中的持久化模块相连，可共享数据。

所述的数据处理模块，包含了数据清洗模块、数据筛选模块以及数据分类模块等；

其中数据清洗模块，是使用python中的一些清洗规则清洗用户所需的数据信息；数据筛选模块，是对残缺数据、错误数据和重复数据进行筛选；另外，残缺数据的清洗过程为根据规则判断重要数据是否确实；错误数据的清洗过程为根据规则判断数据格式、数据边界；重复数据的清洗过程为判断相似度是否匹配，然后根据规则关键字权重匹配，最后将清洗完的数据按找替换方案的定义的规则进行处理，是丢弃还是替换；数据分类模块，其实是将数据清洗和筛选后的数据传至这里，使用python进行分类操作；

进一步地，所述的数据分类模块的分类过程包括：首先根据数据来源和数据来源的关联关系进行初步分类；然后根据数据来源分类后，根据数据格式的相似度进行分类；其次根据用户定义的分类规则进行细分；并根据细分前和细分后的数据，进行对比调整；最后对每执行一次细分分类规则的操作类型增加权重；

所述的数据分析模块，与数据采集模块相连，一是对页面解析模块进行解析后的数据进行深度分析，获取较全面的用户所需信息；二是针对恶意爬取的信息用户，进行深度解剖，确定是否判断有误以及采用反爬虫机制，有效防止误伤，降低误伤率，保障系统正常业务运行不受影响。

进一步地，所述的数据分析模块与数据处理模块，数据存储模块共同作用，传递工作。

需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种高效的网络爬虫分析平台，其包括数据采集模块(1)、数据存储模块(2)、数据处理模块(3)和数据分析模块(4)，其特征在于，所述数据采集模块(1)包括系统调度模块(11)、URL管理模块(12)、页面下载模块(13)、页面解析模块(14)和持久化模块(15)；

所述数据处理模块(3)包括数据清洗模块(31)、数据筛选模块(32)和数据分类模块(33)。

2.如权利要求1所述的一种高效的网络爬虫分析平台，其特征在于：所述数据采集模块(1)采用python中的scrapy框架构建一个网络爬虫系统，所述系统调度模块(11)是系统运行的入口,负责整个爬虫系统的启动,该模块主要定义爬虫系统启动类和用于数据传递的实体类,所述的系统调度模块(11)还可以根据网页内容判断网页类别,以及网页是否为安全页面，所述URL管理模块(12)，是为了防止URL链接的重复爬取或者循环指向；实现方式：python的set数据结构，数据库中的数据表，缓存数据库Redis；所述页面下载模块(13)是从web端抓取网页,具体是根据URL链接通过DNS查询获得网页所在服务器并与服务器建立连接,模拟HTTP请求获得响应进而下载网页内容,所述页面下载模块(13)通过URL直接下载，并将URL对应的网页下载到本地或读入内存。所述页面下载模块(13)也可通过Request或者Cookie访问下载；所述页面解析模块(14)负责页面分析及链接提取,可以通过自定义PageProcessor接口的实现类定制一个自己的垂直爬虫系统；所述页面解析模块(14)包括两部分,一是提取出待抓取的URL链接,二是从页面提取出符合条件的目标数据,并将数据生成Dataltems实例；所述持久化模块(15)，基于Redis的一种持久化的存储器关键字-值型存储。

3.如权利要求1所述的一种高效的网络爬虫分析平台，其特征在于：所述数据存储模块(2)根据待抓取链接库提供，所述数据存储模块(2)设置一个单独存储位置，所述数据存储模块(2)与数据采集模块(1)的持久化模块(15)连接。

4.如权利要求1所述的一种高效的网络爬虫分析平台，其特征在于：所述数据清洗模块(31)，使用python中的清洗规则清洗用户的数据信息；所述数据筛选模块(32)对残缺数据、错误数据和重复数据进行筛选；所述数据分类模块(33)将数据清洗和筛选后的数据进行传输分类处理。

5.如权利要求1所述的一种高效的网络爬虫分析平台，其特征在于：所述数据分析模块(4)对页面解析模块进行解析后的数据进行深度分析，且针对恶意爬取的信息用户，进行深度解剖以及采用反爬虫机制。