CN101446953A

CN101446953A - 并行式关联布告栏爬虫系统

Info

Publication number: CN101446953A
Application number: CNA2008101808227A
Authority: CN
Inventors: 杨溥; 郭军; 徐蔚然
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2008-11-25
Filing date: 2008-11-25
Publication date: 2009-06-03

Abstract

本发明公开了一种并行式关联布告栏爬虫系统，包括以下部件：并行爬取器，超链接剥离器，数据分拣器，网页超链接存储器，数据关联器，存储器，以及超链接投递器。通过应用本发明所描述的系统，可以为开发复式综合布告栏搜索引擎系统的爬虫系统提供通用的设计架构；可以有效地快速地将多个布告栏信息综合分类，并且获得分类关联的信息数据集；从而为复式综合布告栏搜索引擎系统的其他子系统的设计和开发创造便利的条件和基础，尤其是给检索子系统提供设计开发的便利，大大地提高系统的开发效率和降低系统的开发成本。

Description

并行式关联布告栏爬虫系统

技术领域

本发明涉及网络数据采集系统，尤其涉及一种并行式关联布告栏爬虫系统。

背景技术

进入信息社会，人们社会的工作形式进行着翻天覆地的变化：从以前的用粉笔在黑板上写字来通知工作事宜，发展到用纸张贴在面板上通知工作信息，到现在无纸化办公利用电子布告栏通知工作资讯。越来越多的人们发现电子布告栏的及时和便利，这使得越来越多的学校、企业等为了提高工作效率纷纷建立起电子布告栏系统。但是随着学校和企业的扩大，每个学校或者企业不可能只有一个电子布告栏。通常在大型的学校里几乎每个学院都有自己独立的电子布告栏。在大型的企业中每个子公司一个电子布告栏，甚至是每个部门一个专用的电子布告栏。在方便人们的同时也带来了一些问题，如，学生选择的课程是夸院系的，就要分别去到各个学院的布告栏去查询有关课程的通知，这不但效率低下而且有可能再查过之后，由于通知信息并没有综合在一起仍然会不小心选择互相冲突的课程。同样的情况在大公司中就更加容易发生了。庞大的企业在高效运作中，一定会在不同的部门和不同的子公司之间发生各种复杂的业务往来。而这就更加急迫地要求综合各个部门和各个子公司的布告栏信息，否则后果不堪设想，轻则出现工作效率低下，重则出现运作异常最终导致瘫痪。而现行的搜索引擎无力改变现状。为了解决这一棘手问题，人们提出复式综合布告栏搜索引擎系统的思想。由于在搜索系统中除了爬虫子系统以外的其他子系统对于数据的处理是不关心形式的，所以在复式综合布告栏搜索引擎系统中这些子系统对于数据的处理是几乎相同的。而恰恰相反的是爬虫子系统是数据敏感的，原来的方法根本不能够直接运用，这就给系统的开发设置了巨大的障碍。因此，复式综合布告栏搜索引擎系统的爬虫子系统便成为当前一个搜索领域的焦点问题。目前，还没有一种系统的行之有效的复式综合布告栏搜索引擎系统的爬虫子系统。

由于为了综合各个电子布告栏上的信息而布告栏上的信息很多且具有时效性，这就要求爬虫系统有很高的采集效率。采集效率成为一个布告栏爬虫的瓶颈。本发明通过并行爬取器来突破该瓶颈。由于为了综合各个电子布告栏上的信息就必须知道数据的出处，而布告栏上除了网页能够标识来源以外其他的数据都不能够标识出处。数据的无源性成为布告栏爬虫的另一个重要难题。本发明通过数据关联器来解决这一难题。

发明内容

针对现有技术存在的问题，本发明的目的是提供一种高效、信息综合的爬虫系统。

为达到上述目的，本发明提供一种并行式关联布告栏爬虫系统，其特征在于包括：

并行爬取器，用于从各个对应的布告栏上下载网页；

超链接剥离器，用于从网页中分离出超链接；

数据分拣器，用于将不同的数据超链接分别送入所述存储器中；

网页超链接存储器，用于存储网页的超链接；

数据关联器，用于在网页和数据之间建立关联信息；

存储器，用于下载存储各个数据；

超链接投递器，用于将超链接投递给所述相应的并行爬取器。所述系统中，所述数据关联器包括：

网页超链接缓存器，用于暂时存储网页超链接；

关联信息写入器，用于将网页和数据之间的关联信息写入所述存储器中。

本发明的有益效果在于，通过应用本发明所描述的系统，可以为开发复式综合布告栏搜索引擎系统的爬虫系统提供通用的设计架构；可以有效地快速地将多个布告栏信息综合分类，并且获得分类关联的信息数据集；从而为复式综合布告栏搜索引擎系统的其他子系统的设计和开发创造便利的条件和基础，尤其是给检索子系统提供设计开发的便利，大大地提高系统的开发效率和降低系统的开发成本。

结合附图，本发明的其他特点和优点可以从下面通过举例来对本发明的原理进行解释的优选实施方式的说明中变得更清楚。

附图说明

图1是根据本发明的一个实施方式的系统的结构图。

图2示出图1中数据关联器内部结构的一个例子。

具体实施方式

下面将结合附图对本发明的具体实施方式进行详细描述。

图1是根据本发明的一个实施方式的系统的结构图。101表示并行爬取器，102表示超链接剥离器，103表示数据分拣器，104表示网页超链接存储器，105表示数据关联器，106表示存储器，以及107表示超链接投递器。需要指出的是下文所述的布告栏可以是企业、学校的，也可以是出自其他地方的，这仅仅是举例，布告栏的不同出处不构成对本发明的限制。

并行爬取器101，用于从各个对应的布告栏上下载网页。同一时刻，若只有一个爬去器在爬去一个布告栏，显然这样效率低下且不能达到实时性的要求。为了提高爬取效率，一个并行爬取器101的具体实施例是利用多线程技术，每一个线程引导一个并行爬取器，多个线程可以在同一时刻同时工作，这样就使得多个并行爬取器在同一时刻同时采集不同的布告栏，极大的提升爬取效率。并行爬取器的个数通常由布告栏的个数决定。以上是并行爬取器101的一个具体实施例，其他不同的实施例不构成对本发明的限制。

超链接剥离器102，用于从网页中分离出超链接。一个超链接剥离器102的具体实施例是通过正则表达式匹配网页中的html标记语言中的超链接标记，如src，href等等，从而将超链接从网页中剥离出来。以上是超链接剥离器102的一个具体实施例，其他不同的实施例不构成对本发明的限制。

数据分拣器103，用于将不同的数据超链接分别送入存储器中。一个数据分拣器103的具体实施例是通过超链接本身包含的数据类型信息，将数据按类型分开。如.doc、.htm、.xls、.rar等等的超链接后缀名。通过字符串匹配超链接的后缀名，然后将其分拣，如，匹配文本后缀名.doc，将其送入存储器的文本库中；匹配压缩文件后缀名.rar，将其送入存储器的压缩文件库中；匹配网页后缀名.htm，将其送入网页超链接存储器中。以上是数据分拣器103的一个具体实施例，其他不同的实施例不构成对本发明的限制。

网页超链接存储器104，用于存储网页的超链接。一个网页超链接存储器104的具体实施例是通过文件系统将网页超链接存入。以上是网页超链接存储器104的一个具体实施例，其他不同的实施例不构成对本发明的限制。

数据关联器105，用于在网页和数据之间建立关联信息。一个具体实施例在图2中所示。

存储器106，用于下载存储各个数据。一个存储器106的具体实施例是通过现有的关系型数据库建立不同的数据子库分别存储不同类型的数据。如，在数据库建立文本库存储文本；在数据库建立压缩文件库存储压缩文件；在数据库建立图像库存储图像数据等等。以上是存储器106的一个具体实施例，其他不同的实施例不构成对本发明的限制。

超链接投递器107，用于将超链接投递给所述相应的并行爬取器。一个超链接投递器107的具体实施例是检测网页超链接存储器104中是否还有未被处理的超链接，若还有未被处理的超链接，则读取此超链接，然后按照超链接本身信息中所包含的布告栏标识信息将超链接投递给并行爬取器101与布告栏标识信息相应的爬取器；若没有未被处理的超链接，则爬虫系统停止。如布告栏超链接http://buptoa.bupt.edu.cn/student_broad.nsf/AuthorView？OpenView和http://buptoa.bupt.edu.cn/broad.nsf/depView_qt？OpenView，从超链接的部分字符串“http://buptoa.bupt.edu.cn/student_broad.nsf”和“http://buptoa.bupt.edu.cn/broad.nsf”中可以得出这是同一个主机下的两个独立不同的布告栏，通过读取以上标识并将其投递给不同的爬取器实现并行和高效地采集。以上是超链接投递器107的一个具体实施例，其他不同的实施例不构成对本发明的限制。

图2示出图1中数据关联器内部结构的一个例子。除了数据关联器105以外，图2中的各部件与图1中的各部件相同。

如图2所示，数据关联器105包括网页超链接缓存器1051和关联信息写入器1052。

网页超链接缓存器1051，用于暂时存储网页超链接。一个网页超链接缓存器1051具体实施例是通过文件系统将在超链接剥离器102中被剥离的网页的超链接暂时存储。当网页超链接缓存器1051将信息传递给关联信息写入器1052后就重置，释放资源。以上是网页超链接缓存器1051的一个具体实施例，其他不同的实施例不构成对本发明的限制。

关联信息写入器1052，用于将网页和数据之间的关联信息写入所述存储器中。一个关联信息写入器1052具体实施例是首先从网页超链接缓存器1051中获取缓存的网页超链接，然后将此网页超链接通过字符串匹配提取出其中的布告栏标识信息，最后在数据存储到存储器106之前将此布告栏标识信息和网页超链接写入数据的开头处。以上是关联信息写入器1052的一个具体实施例，其他不同的实施例不构成对本发明的限制。

以上结合附图描述了本发明的具体实施方式，各种举例说明不对发明的实质内容构成限制，本发明不限于上面提供的实施细节，可以在不脱离本发明特征的情况下以另外的实施例实现。所属技术领域的普通技术人员在阅读了说明书后可以对以前所述的具体实施方式做修改或变形，而不背离发明的实质和范围。

Claims

1.一种并行式关联布告栏爬虫系统，其特征在于包括：