CN101299219A

CN101299219A - 多线程断点续传可定制内部网爬虫系统

Info

Publication number: CN101299219A
Application number: CNA2008101264567A
Authority: CN
Inventors: 杨溥; 郭军; 徐蔚然
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2008-06-27
Filing date: 2008-06-27
Publication date: 2008-11-05

Abstract

本发明公开了一种多线程断点续传可定制内部网爬虫系统，包括以下部件：多线程产生器，断点续传器，超链接分析提取器，内部网分析器，超链接存储库，数据类型评判器，数据下载器，数据存储库，异常处理器，以及超链接提供器。通过应用本发明所描述的系统，可以有效地解决爬虫系统无法采集内部网数据的问题；可以为搭建特色搜索引擎所需的重要技术——爬虫系统的数据类型针对性提供通用的框架；可以避免爬虫的重复性爬取；显著提高爬虫系统应对突发事件的能力，进一步提高爬抓效率和爬抓速度，有效地降低系统开发成本。

Description

多线程断点续传可定制内部网爬虫系统

技术领域

本发明涉及网络数据采集系统，尤其涉及一种多线程断点续传可定制内部网爬虫系统。

背景技术

随着信息时代的到来，越来越多的企业、学校等纷纷建立起自己的内部网，在内部网上搭建服务器实行数据的共享来提高工作、学习等效率。但是随着内部网数据量的激增，人们很难简单快捷地在内部网上找到所需的数据，因此数据的共享并没有带来显著的效率的提高。内部网和数据共享并没有发挥它们应有的潜力。于是，人们想能否通过因特网上的一般搜索引擎来检索内部网上的数据，但很不幸的是，由于这些数据只能在企业、学校等内部使用、交流和传播，因此因特网上的一般搜索引擎检索不到这些内部网的数据。为了解决这一问题，人们提出了内部网搜索引擎的概念。而从一般因特网上的搜索引擎转变到内部网上的搜索引擎，其他的搜索引擎系统部分可以直接复制，惟一的不同是爬虫系统，因此内部网爬虫系统是内部网搜索引擎的核心。怎样做到爬虫系统只在内部网上采集数据已受到越来越多的学者的关注。

由于内部网上的数据类型千差万别，如音频、视频、图像、文本等，其中，音频又包括：mp3、wma等，视频又包括：avi、rm、rmvb、wmv等，图像又包括：jpg、png、tif、bmp等，文本又包括：txt、doc、pdf等。为了提高检索效率和降低搜索引擎的开发难度，提出了只针对某一类数据类型的特色搜索引擎，如音频搜索引擎、视频搜索引擎、图像搜索引擎、文本搜索引擎等。因此，爬虫系统的数据类型针对性是搭建特色搜索引擎的核心部分之一，怎样实现爬虫系统的数据类型针对性也受到越来越多的学者的关注。

随着基于内部网的数据共享带来的高效率和好处，越来越多的服务器被建立，越来越多的数据被共享，内部网上的数据更新速度也在显著提高。这就给搜索引擎的核心部分之一的爬虫系统提出了新的挑战。怎样进一步提高爬虫系统爬抓效率和爬抓速度成为众多学者关注的热点。因此，本发明引入多线程技术和异常处理技术来解决这一问题。

针对网络和硬件的不可测突发事件，比如，突然断电、网络突断、服务器重新启动等等，怎样避免爬虫的重复性爬取，提高爬虫系统应对突发事件的能力，进一步提高爬抓效率和怕抓速度也成为众多学者关注的热点。因此，本发明通过引入断点续传技术来解决这一问题。

发明内容

针对现有技术存在的问题，本发明的目的是提供一种高效、能够应对突发事件、可定制面向内部网爬虫系统。

为达到上述目的，本发明提供一种多线程断点续传可定制内部网爬虫系统，其特征在于包括：

多线程产生器，用于产生并提供多线程；

断点续传器，用于恢复爬虫系统的爬取环境；

超链接分析提取器，用于分析并提取网页中的超链接；

内部网分析器，用于分析判定在所述超链接提取器中提取的超链接是否是内部网超链接，并判定是否需要保存超链接；

超链接存储库，用于保存在所述内部网分析器中被判定需要保存的超链接；

数据类型评判器，用于分析判定数据类型是否与预先定制的数据类型相同，并判定是否需要下载数据；

数据下载器，用于下载在所述数据类型评判器中被判定需要下载的数据；

数据存储库，用于存储在所述数据下载器中下载的数据；

异常处理器，用于处理在所述数据下载器中出现的异常；

超链接提供器，用于向所述多线程产生器提供需要处理的超链接。

所述系统中，所述超链接分析提取器包括：

网页判断器，用于分析判断超链接所指向的数据是否是网页；

超链接提取器，用于提取在所述网页判断器中被判定是网页的超链接。

本发明的有益效果在于，通过应用本发明所描述的系统，可以有效地解决爬虫系统无法采集内部网数据的问题；可以为搭建特色搜索引擎所需的重要技术----爬虫系统的数据类型针对性提供通用的框架；可以避免爬虫的重复性爬取；显著提高爬虫系统应对突发事件的能力，进一步提高爬抓效率和怕抓速度，有效地降低系统开发成本。

结合附图，本发明的其他特点和优点可以从下面通过举例来对本发明的原理进行解释的优选实施方式的说明中变得更清楚。

附图说明

图1是根据本发明的一个实施方式的系统的结构图。

图2示出图1中超链接分析提取器内部结构的一个例子。

具体实施方式

下面将结合附图对本发明的具体实施方式进行详细描述。

图1是根据本发明的一个实施方式的系统的结构图。101表示多线程产生器，102表示断点续传器，103表示超链接分析提取器，104表示内部网分析器，105表示超链接存储库，106表示数据类型评判器，107表示数据下载器，108表示数据存储库，109表示异常处理器，以及110表示超链接提供器。

多线程产生器101，用于产生并提供多线程，可以预先设定线程的数量。每一个处理的超链接都会经过断点续传器102、超链接分析提取器103、内部网分析器104、超链接存储库105、数据类型评判器106、数据下载器107、数据存储库108、超链接提供器110，若出现异常情况，也会经过异常处理器109。同一时刻，只会有一个部件在工作，而其他部件都处于闲置状态，显然这样极大的浪费资源。为避免这种资源的浪费，提高效率，多线程产生器101产生并提供多个线程，每一个线程引导处理一个超链接，多个线程可以在同一时刻同时工作，处理完一个超链接之后，此线程处于闲置状态，等待被调用。一个多线程产生器101的具体实施例是利用线程池技术，首先检测线程池是否有闲置线程，若有闲置线程，则将此闲置的线程用于引导处理超链接提供器110提供的超链接；若没有闲置的线程，则等待，直到有线程处理完超链接之后处于闲置状态，然后将此闲置的线程用于引导处理超链接提供器110提供的超链接。以上是多线程产生器101的一个具体实施例，其他不同的实施例不构成对本发明的限制。

断点续传器102，用于恢复爬虫系统的爬取环境，针对网络和硬件的不可测突发事件，比如，突然断电、网络突断、服务器重新启动等等，爬虫系统需要重新启动，此时为避免爬虫的重复性爬取，一个断点续传器102的具体实施例是首先分别从超链接存储库105和数据存储库108读取最后一次存储的超链接和数据，将此超链接作为爬虫系统的初始超链接，将此数据作为作为爬虫系统的初始下载数据。以上是断点续传器102的一个具体实施例，其他不同的实施例不构成对本发明的限制。

超链接分析提取器103，用于分析并提取网页中的超链接。一个具体实施例在图2中所示。

内部网分析器104，用于分析判定超链接分析提取器103中提取的超链接是否是内部网超链接，并判定是否需要保存超链接。一个内部网分析器104的具体实施例是通过正则表达式技术，来匹配内部网上的主机域名，能够匹配上的属于这一内部网，不能够匹配上的不属于这一内部网。若是属于这一内部网的超链接，则判定为需要保存的超链接；若不是属于这一内部网的超链接，则判定为不需要保存的超链接。以上是内部网分析器104的一个具体实施例，其他不同的实施例不构成对本发明的限制。

超链接存储库105，用于保存在内部网分析器104中被判定需要保存的超链接。

数据类型评判器106，用于分析判定数据类型是否与预先定制的数据类型相同，并判定是否需要下载数据。一个数据类型评判器106的具体实施例是通过正则表达式，匹配包含在超链接里的数据类型的后缀，然后与预先定制的数据类型比较。若当前待下载数据的类型与预先定制的数据类型相同，则判定为需要下载的数据；若当前待下载数据的类型与预先定制的数据类型不相同，则判定为不需要下载的数据。以上是数据类型评判器106的一个具体实施例，其他不同的实施例不构成对本发明的限制。

数据下载器107，用于下载在数据类型评判器106中被判定需要下载的数据。

数据存储库108，用于存储在数据下载器107中下载的数据。

异常处理器109，用于处理在数据下载器107中出现的异常。有时服务器上会有死超链接，所谓死超链接就是指网页中有此超链接存在，但此超链接所指向的数据已经被删除，在这种情况下，爬虫系统数据下载器107会出现无休止的等待状态，即一直在等待下载根本不存在的数据。一个异常处理器109具体实施例是在这时，异常处理器109将立即停止数据下载器107，启动超链接提供器110，即丢弃当前死超链接，处理下一个需要处理的超链接。以上是异常处理器109的一个具体实施例，其他不同的实施例不构成对本发明的限制。

超链接提供器110，用于向多线程产生器101提供需要处理的超链接。一个超链接提供器110的具体实施例是检测超链接存储库105中是否还有未被处理的超链接，若还有未被处理的超链接，则读取此超链接，然后将此超链接提供给多线程产生器101；若没有未被处理的超链接，则爬虫系统停止。以上是超链接提供器110的一个具体实施例，其他不同的实施例不构成对本发明的限制。

图2示出图1中超链接分析提取器内部结构的一个例子。除了超链接分析提取器103以外，图2中的各部件与图1中的各部件相同。

如图2所示，超链接分析提取器103包括网页判断器1031和超链接提取器1032。

网页判断器1031，用于分析判断超链接所指向的数据是否是网页。一个网页判断器1031具体实施例是通过HTTP协议Content-Type，即通过给服务器发送请求得到Content-Type数据，来分析判断超链接所指向的数据是否是网页。以上是网页判断器1031的一个具体实施例，其他不同的实施例不构成对本发明的限制。

超链接提取器1032，用于提取在网页判断器1031中被判定是网页的超链接。一个超链接提取器1032具体实施例是利用正则表达式，来匹配网页源码中的超链接，从而定位超链接，进而提取出超链接。以上是超链接提取器1032的一个具体实施例，其他不同的实施例不构成对本发明的限制。

以上结合附图描述了本发明的具体实施方式，各种举例说明不对发明的实质内容构成限制，本发明不限于上面提供的实施细节，可以在不脱离本发明特征的情况下以另外的实施例实现。所属技术领域的普通技术人员在阅读了说明书后可以对以前所述的具体实施方式做修改或变形，而不背离发明的实质和范围。

Claims

1.一种多线程断点续传可定制内部网爬虫系统，其特征在于包括：

多线程产生器，用于产生并提供多线程；

断点续传器，用于恢复爬虫系统的爬取环境；

超链接分析提取器，用于分析并提取网页中的超链接；

数据存储库，用于存储在所述数据下载器中下载的数据；

异常处理器，用于处理在所述数据下载器中出现的异常；

2.根据权利要求1所述的多线程断点续传可定制内部网爬虫系统，其特征在于，所述超链接分析提取器包括：