CN107291838A

CN107291838A - 有效筛分资源的爬虫系统

Info

Publication number: CN107291838A
Application number: CN201710398058.XA
Authority: CN
Inventors: 肖雪松
Original assignee: Chengdu Bright Technology Co Ltd
Current assignee: Chengdu Bright Technology Co Ltd
Priority date: 2017-05-31
Filing date: 2017-05-31
Publication date: 2017-10-24

Abstract

本发明公开了有效筛分资源的爬虫系统，包括网络资源收集模块，所述网络资源收集模块包括爬虫分配装置和爬虫执行单元，所述网络资源收集模块连接有爬虫依赖模块和网页分解模块，所述网页分解模块连接有工作数据库，所工作收集库连接有临时增量数据库，所述临时增量数据库连接有更新增量数据库，所述更新增量数据库连接有本地文件子系统，所述本地文件子系统连接一个分布式文件子系统；所述爬虫分配装置包括初始单元、网页下载模块、关闭单元。

Description

有效筛分资源的爬虫系统

技术领域

本发明涉及一种爬虫系统，具体涉及有效筛分资源的爬虫系统。

背景技术

搜索引擎作为网络信息搜寻的工具，它以一定的策略在互联网中搜集、发现信息，对信息进行理解、提取、组织和处理，并为用户提供检索服务。1994年，爬虫程序被应用到索引程序中，Yahoo、Google等相继出现。但至今，功能再强大的搜索引擎都仍然存在信息丢失、更新率不高、精确率不高等问题。用户需要更快、更准、更方便、更有效的查询服务成为搜索引擎技术发展研究追求的目标。

在这种情况下定向抓取相关网页资源的主题爬虫应运而生。主题爬虫又称为聚焦爬虫，为自动下载网页的程序，它根据既定的抓取目标，有选择的访问万维网上的网页与相关的链接，获取所需要的信息。作为一种智能的Web爬虫，它的基本工作过程与一般的爬虫是相似的。与一般爬虫不同的是，主题爬虫并不追求大的覆盖，而将目标定为抓取与某一特定主题内容相关的网页，为面向主题的用户查询准备数据资源。

面对越来越庞大的网络资源，提高爬虫程序的速度已成为当前搜索领域的一个焦点问题，现有的爬虫程序筛选的网络资源较多，筛选量较多，筛选的内容也没有一个较好的标准，因此在筛选时的速度较慢，效率也较低。

发明内容

本发明所要解决的技术问题是现有的爬虫系统筛选速度较慢，效率低，目的在于提供有效筛分资源的爬虫系统，解决现有的爬虫系统的筛选速度慢效率也较低的问题。

本发明通过下述技术方案实现：

有效筛分资源的爬虫系统，包括网络资源收集模块，所述网络资源收集模块包括爬虫分配装置和爬虫执行单元，所述网络资源收集模块连接有爬虫依赖模块和网页分解模块，所述网页分解模块连接有工作数据库，所工作收集库连接有临时增量数据库，所述临时增量数据库连接有更新增量数据库，所述更新增量数据库连接有本地文件子系统，所述本地文件子系统连接一个分布式文件子系统；所述爬虫分配装置包括初始单元、网页下载模块、关闭单元；

所述初始单元用于为网络资源收集准备必要的存储空间及系统开销；

所述网页下载模块用于根据目标网络资源的数据类型选择不同爬虫程序收集目标网络资源的数据；

所述关闭单元用于在收集装置收集到所需要的目标数据后释放系统开销以及在收集装置出现异常时进行异常处理；

所述爬虫依赖模块用于配置网络资源收集模块与目标网络资源之间的依赖关系；网络资源收集模块能够通过爬虫依赖模块建立的依赖关系，通过爬虫分配装置配置相应爬虫执行单元执行资源收集；

所述网页分解模块用于网页的分解、去除广告信息、去除噪声；

所述工作数据库用于和当前用户兴趣内容做相似度比较，根据相似度排序为用户推送内容；

所述更新增量数据库用于存储一个时间周期内网站更新的内容；

所述临时增量数据库用于存储接着上次爬取断点爬取到的内容；

所述本地文件子系统用于存储所述爬虫服务器收到的所述网页数据；

所述分布式文件子系统，用于同步所述本地文件子系统中的网页数据。

有效筛分资源的爬虫系统，所述本地文件子系统包括URL过滤器，所述URL过滤器用于对收集的网页数据进行重排。

有效筛分资源的爬虫系统，所述URL过滤器为基于二进制数组bitSet的过滤器。

有效筛分资源的爬虫系统，所述网络资源收集模块连接有控制模块，所述控制模块用于存储各个爬行节点的状态信息、全局爬行信息和各个爬行节点的任务，这些信息的数据结构采用Key-value数据。

进一步的，本系统分别创建工作数据库、更新增量数据库和临时增量数据库，其中工作数据库用于和当前用户兴趣内容做相似度比较，根据相似度排序为用户推送内容；更新增量数据库用户存储一个时间周期内(通常是一天)网站更新的内容；临时数据库用于存储接着上次爬取断点爬取到的内容；通过爬虫模块爬取网络上的网页；提取网页的主要内容，重新生成适合客户端阅读的网页；对内容文本部分进行分词，得到内容的URL、标题、标签、来源、时间、词频等属性；判断该内容是否是网站更新的内容；如果该内容是网站最近更新的内容，将计算得到的内容属性存入更新增量数据库；否则，存入临时增量数据库；

本发明与现有技术相比，具有如下的优点和有益效果：

1、本发明有效筛分资源的爬虫系统，本系统根据人们的兴趣内容做相似度比较，在筛选时通过人们的兴趣爱好进行筛选，筛选的内容更有效率，并且这样筛选的内容也相对较少，因此筛选的速度更快，更加便于使用；

2、本发明有效筛分资源的爬虫系统，本系统的筛选的速度和效率更高，通过工作数据库、更新增量数据库和临时增量数据库，在筛分后的数据资源更加直观，更有利于人们直观的获得数据和资源；

附图说明

此处所说明的附图用来提供对本发明实施例的进一步理解，构成本申请的一部分，并不构成对本发明实施例的限定。在附图中：

图1为本发明结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下面结合实施例和附图，对本发明作进一步的详细说明，本发明的示意性实施方式及其说明仅用于解释本发明，并不作为对本发明的限定。

实施例

如图1所示，本发明有效筛分资源的爬虫系统，包括网络资源收集模块，所述网络资源收集模块包括爬虫分配装置和爬虫执行单元，所述网络资源收集模块连接有爬虫依赖模块和网页分解模块，所述网页分解模块连接有工作数据库，所工作收集库连接有临时增量数据库，所述临时增量数据库连接有更新增量数据库，所述更新增量数据库连接有本地文件子系统，所述本地文件子系统连接一个分布式文件子系统；所述爬虫分配装置包括初始单元、网页下载模块、关闭单元；

所述的有效筛分资源的爬虫系统，本地文件子系统包括URL过滤器，所述URL过滤器用于对收集的网页数据进行重排。

所述的有效筛分资源的爬虫系统，URL过滤器为基于二进制数组bitSet的过滤器。

所述的有效筛分资源的爬虫系统，网络资源收集模块连接有控制模块，所述控制模块用于存储各个爬行节点的状态信息、全局爬行信息和各个爬行节点的任务，这些信息的数据结构采用Key-value数据。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.有效筛分资源的爬虫系统，其特征在于，包括网络资源收集模块，所述网络资源收集模块包括爬虫分配装置和爬虫执行单元，所述网络资源收集模块连接有爬虫依赖模块和网页分解模块，所述网页分解模块连接有工作数据库，所工作收集库连接有临时增量数据库，所述临时增量数据库连接有更新增量数据库，所述更新增量数据库连接有本地文件子系统，所述本地文件子系统连接一个分布式文件子系统；所述爬虫分配装置包括初始单元、网页下载模块、关闭单元；

2.根据权利要求1所述的有效筛分资源的爬虫系统，其特征在于，所述本地文件子系统包括URL过滤器，所述URL过滤器用于对收集的网页数据进行重排。

3.根据权利要求2所述的有效筛分资源的爬虫系统，其特征在于，所述URL过滤器为基于二进制数组bitSet的过滤器。

4.根据权利要求1所述的有效筛分资源的爬虫系统，其特征在于，所述网络资源收集模块连接有控制模块，所述控制模块用于存储各个爬行节点的状态信息、全局爬行信息和各个爬行节点的任务，这些信息的数据结构采用Key-value数据。