CN101446953A - 并行式关联布告栏爬虫系统 - Google Patents

并行式关联布告栏爬虫系统 Download PDF

Info

Publication number
CN101446953A
CN101446953A CNA2008101808227A CN200810180822A CN101446953A CN 101446953 A CN101446953 A CN 101446953A CN A2008101808227 A CNA2008101808227 A CN A2008101808227A CN 200810180822 A CN200810180822 A CN 200810180822A CN 101446953 A CN101446953 A CN 101446953A
Authority
CN
China
Prior art keywords
hyperlink
webpage
data
notice board
parallel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA2008101808227A
Other languages
English (en)
Inventor
杨溥
郭军
徐蔚然
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
Original Assignee
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications filed Critical Beijing University of Posts and Telecommunications
Priority to CNA2008101808227A priority Critical patent/CN101446953A/zh
Publication of CN101446953A publication Critical patent/CN101446953A/zh
Pending legal-status Critical Current

Links

Images

Abstract

本发明公开了一种并行式关联布告栏爬虫系统,包括以下部件:并行爬取器,超链接剥离器,数据分拣器,网页超链接存储器,数据关联器,存储器,以及超链接投递器。通过应用本发明所描述的系统,可以为开发复式综合布告栏搜索引擎系统的爬虫系统提供通用的设计架构;可以有效地快速地将多个布告栏信息综合分类,并且获得分类关联的信息数据集;从而为复式综合布告栏搜索引擎系统的其他子系统的设计和开发创造便利的条件和基础,尤其是给检索子系统提供设计开发的便利,大大地提高系统的开发效率和降低系统的开发成本。

Description

并行式关联布告栏爬虫系统
技术领域
本发明涉及网络数据采集系统,尤其涉及一种并行式关联布告栏爬虫系统。
背景技术
进入信息社会,人们社会的工作形式进行着翻天覆地的变化:从以前的用粉笔在黑板上写字来通知工作事宜,发展到用纸张贴在面板上通知工作信息,到现在无纸化办公利用电子布告栏通知工作资讯。越来越多的人们发现电子布告栏的及时和便利,这使得越来越多的学校、企业等为了提高工作效率纷纷建立起电子布告栏系统。但是随着学校和企业的扩大,每个学校或者企业不可能只有一个电子布告栏。通常在大型的学校里几乎每个学院都有自己独立的电子布告栏。在大型的企业中每个子公司一个电子布告栏,甚至是每个部门一个专用的电子布告栏。在方便人们的同时也带来了一些问题,如,学生选择的课程是夸院系的,就要分别去到各个学院的布告栏去查询有关课程的通知,这不但效率低下而且有可能再查过之后,由于通知信息并没有综合在一起仍然会不小心选择互相冲突的课程。同样的情况在大公司中就更加容易发生了。庞大的企业在高效运作中,一定会在不同的部门和不同的子公司之间发生各种复杂的业务往来。而这就更加急迫地要求综合各个部门和各个子公司的布告栏信息,否则后果不堪设想,轻则出现工作效率低下,重则出现运作异常最终导致瘫痪。而现行的搜索引擎无力改变现状。为了解决这一棘手问题,人们提出复式综合布告栏搜索引擎系统的思想。由于在搜索系统中除了爬虫子系统以外的其他子系统对于数据的处理是不关心形式的,所以在复式综合布告栏搜索引擎系统中这些子系统对于数据的处理是几乎相同的。而恰恰相反的是爬虫子系统是数据敏感的,原来的方法根本不能够直接运用,这就给系统的开发设置了巨大的障碍。因此,复式综合布告栏搜索引擎系统的爬虫子系统便成为当前一个搜索领域的焦点问题。目前,还没有一种系统的行之有效的复式综合布告栏搜索引擎系统的爬虫子系统。
由于为了综合各个电子布告栏上的信息而布告栏上的信息很多且具有时效性,这就要求爬虫系统有很高的采集效率。采集效率成为一个布告栏爬虫的瓶颈。本发明通过并行爬取器来突破该瓶颈。由于为了综合各个电子布告栏上的信息就必须知道数据的出处,而布告栏上除了网页能够标识来源以外其他的数据都不能够标识出处。数据的无源性成为布告栏爬虫的另一个重要难题。本发明通过数据关联器来解决这一难题。
发明内容
针对现有技术存在的问题,本发明的目的是提供一种高效、信息综合的爬虫系统。
为达到上述目的,本发明提供一种并行式关联布告栏爬虫系统,其特征在于包括:
并行爬取器,用于从各个对应的布告栏上下载网页;
超链接剥离器,用于从网页中分离出超链接;
数据分拣器,用于将不同的数据超链接分别送入所述存储器中;
网页超链接存储器,用于存储网页的超链接;
数据关联器,用于在网页和数据之间建立关联信息;
存储器,用于下载存储各个数据;
超链接投递器,用于将超链接投递给所述相应的并行爬取器。所述系统中,所述数据关联器包括:
网页超链接缓存器,用于暂时存储网页超链接;
关联信息写入器,用于将网页和数据之间的关联信息写入所述存储器中。
本发明的有益效果在于,通过应用本发明所描述的系统,可以为开发复式综合布告栏搜索引擎系统的爬虫系统提供通用的设计架构;可以有效地快速地将多个布告栏信息综合分类,并且获得分类关联的信息数据集;从而为复式综合布告栏搜索引擎系统的其他子系统的设计和开发创造便利的条件和基础,尤其是给检索子系统提供设计开发的便利,大大地提高系统的开发效率和降低系统的开发成本。
结合附图,本发明的其他特点和优点可以从下面通过举例来对本发明的原理进行解释的优选实施方式的说明中变得更清楚。
附图说明
图1是根据本发明的一个实施方式的系统的结构图。
图2示出图1中数据关联器内部结构的一个例子。
具体实施方式
下面将结合附图对本发明的具体实施方式进行详细描述。
图1是根据本发明的一个实施方式的系统的结构图。101表示并行爬取器,102表示超链接剥离器,103表示数据分拣器,104表示网页超链接存储器,105表示数据关联器,106表示存储器,以及107表示超链接投递器。需要指出的是下文所述的布告栏可以是企业、学校的,也可以是出自其他地方的,这仅仅是举例,布告栏的不同出处不构成对本发明的限制。
并行爬取器101,用于从各个对应的布告栏上下载网页。同一时刻,若只有一个爬去器在爬去一个布告栏,显然这样效率低下且不能达到实时性的要求。为了提高爬取效率,一个并行爬取器101的具体实施例是利用多线程技术,每一个线程引导一个并行爬取器,多个线程可以在同一时刻同时工作,这样就使得多个并行爬取器在同一时刻同时采集不同的布告栏,极大的提升爬取效率。并行爬取器的个数通常由布告栏的个数决定。以上是并行爬取器101的一个具体实施例,其他不同的实施例不构成对本发明的限制。
超链接剥离器102,用于从网页中分离出超链接。一个超链接剥离器102的具体实施例是通过正则表达式匹配网页中的html标记语言中的超链接标记,如src,href等等,从而将超链接从网页中剥离出来。以上是超链接剥离器102的一个具体实施例,其他不同的实施例不构成对本发明的限制。
数据分拣器103,用于将不同的数据超链接分别送入存储器中。一个数据分拣器103的具体实施例是通过超链接本身包含的数据类型信息,将数据按类型分开。如.doc、.htm、.xls、.rar等等的超链接后缀名。通过字符串匹配超链接的后缀名,然后将其分拣,如,匹配文本后缀名.doc,将其送入存储器的文本库中;匹配压缩文件后缀名.rar,将其送入存储器的压缩文件库中;匹配网页后缀名.htm,将其送入网页超链接存储器中。以上是数据分拣器103的一个具体实施例,其他不同的实施例不构成对本发明的限制。
网页超链接存储器104,用于存储网页的超链接。一个网页超链接存储器104的具体实施例是通过文件系统将网页超链接存入。以上是网页超链接存储器104的一个具体实施例,其他不同的实施例不构成对本发明的限制。
数据关联器105,用于在网页和数据之间建立关联信息。一个具体实施例在图2中所示。
存储器106,用于下载存储各个数据。一个存储器106的具体实施例是通过现有的关系型数据库建立不同的数据子库分别存储不同类型的数据。如,在数据库建立文本库存储文本;在数据库建立压缩文件库存储压缩文件;在数据库建立图像库存储图像数据等等。以上是存储器106的一个具体实施例,其他不同的实施例不构成对本发明的限制。
超链接投递器107,用于将超链接投递给所述相应的并行爬取器。一个超链接投递器107的具体实施例是检测网页超链接存储器104中是否还有未被处理的超链接,若还有未被处理的超链接,则读取此超链接,然后按照超链接本身信息中所包含的布告栏标识信息将超链接投递给并行爬取器101与布告栏标识信息相应的爬取器;若没有未被处理的超链接,则爬虫系统停止。如布告栏超链接http://buptoa.bupt.edu.cn/student_broad.nsf/AuthorView?OpenView和http://buptoa.bupt.edu.cn/broad.nsf/depView_qt?OpenView,从超链接的部分字符串“http://buptoa.bupt.edu.cn/student_broad.nsf”和“http://buptoa.bupt.edu.cn/broad.nsf”中可以得出这是同一个主机下的两个独立不同的布告栏,通过读取以上标识并将其投递给不同的爬取器实现并行和高效地采集。以上是超链接投递器107的一个具体实施例,其他不同的实施例不构成对本发明的限制。
图2示出图1中数据关联器内部结构的一个例子。除了数据关联器105以外,图2中的各部件与图1中的各部件相同。
如图2所示,数据关联器105包括网页超链接缓存器1051和关联信息写入器1052。
网页超链接缓存器1051,用于暂时存储网页超链接。一个网页超链接缓存器1051具体实施例是通过文件系统将在超链接剥离器102中被剥离的网页的超链接暂时存储。当网页超链接缓存器1051将信息传递给关联信息写入器1052后就重置,释放资源。以上是网页超链接缓存器1051的一个具体实施例,其他不同的实施例不构成对本发明的限制。
关联信息写入器1052,用于将网页和数据之间的关联信息写入所述存储器中。一个关联信息写入器1052具体实施例是首先从网页超链接缓存器1051中获取缓存的网页超链接,然后将此网页超链接通过字符串匹配提取出其中的布告栏标识信息,最后在数据存储到存储器106之前将此布告栏标识信息和网页超链接写入数据的开头处。以上是关联信息写入器1052的一个具体实施例,其他不同的实施例不构成对本发明的限制。
以上结合附图描述了本发明的具体实施方式,各种举例说明不对发明的实质内容构成限制,本发明不限于上面提供的实施细节,可以在不脱离本发明特征的情况下以另外的实施例实现。所属技术领域的普通技术人员在阅读了说明书后可以对以前所述的具体实施方式做修改或变形,而不背离发明的实质和范围。

Claims (2)

1.一种并行式关联布告栏爬虫系统,其特征在于包括:
并行爬取器,用于从各个对应的布告栏上下载网页;
超链接剥离器,用于从网页中分离出超链接;
数据分拣器,用于将不同的数据超链接分别送入所述存储器中;
网页超链接存储器,用于存储网页的超链接;
数据关联器,用于在网页和数据之间建立关联信息;
存储器,用于下载存储各个数据;
超链接投递器,用于将超链接投递给所述相应的并行爬取器。
2.根据权利要求1所述的并行式关联布告栏爬虫系统,其特征在于,所述数据关联器包括:
网页超链接缓存器,用于暂时存储网页超链接;
关联信息写入器,用于将网页和数据之间的关联信息写入所述存储器中。
CNA2008101808227A 2008-11-25 2008-11-25 并行式关联布告栏爬虫系统 Pending CN101446953A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNA2008101808227A CN101446953A (zh) 2008-11-25 2008-11-25 并行式关联布告栏爬虫系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNA2008101808227A CN101446953A (zh) 2008-11-25 2008-11-25 并行式关联布告栏爬虫系统

Publications (1)

Publication Number Publication Date
CN101446953A true CN101446953A (zh) 2009-06-03

Family

ID=40742631

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA2008101808227A Pending CN101446953A (zh) 2008-11-25 2008-11-25 并行式关联布告栏爬虫系统

Country Status (1)

Country Link
CN (1) CN101446953A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103475688A (zh) * 2013-05-24 2013-12-25 北京网秦天下科技有限公司 用于下载网站数据的分布式方法和系统
CN105302527A (zh) * 2015-10-29 2016-02-03 华北电力大学 线程组织方法
CN105912695A (zh) * 2016-04-25 2016-08-31 全球电气资源(深圳)有限公司 一种基于互联网的数据信息传输和采集系统

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103475688A (zh) * 2013-05-24 2013-12-25 北京网秦天下科技有限公司 用于下载网站数据的分布式方法和系统
CN105302527A (zh) * 2015-10-29 2016-02-03 华北电力大学 线程组织方法
CN105302527B (zh) * 2015-10-29 2018-01-19 华北电力大学 线程组织方法
CN105912695A (zh) * 2016-04-25 2016-08-31 全球电气资源(深圳)有限公司 一种基于互联网的数据信息传输和采集系统

Similar Documents

Publication Publication Date Title
CN102566945B (zh) 一种实现图书自动组稿按需印刷的方法和系统
CN103473263B (zh) 一种面向新闻事件演变过程的可视化展现方法
CN105447099A (zh) 日志结构化信息提取方法及装置
CN101727461A (zh) 一种网页的正文抽取方法
CN101620608A (zh) 信息采集方法及系统
CN106909554B (zh) 一种数据库文本表数据的加载方法及装置
CN110457579B (zh) 基于模板和分类器协同工作的网页去噪方法及系统
CN103166981A (zh) 一种无线网页转码方法及装置
CN102646248A (zh) 一种广告发布方法及系统
CN108520065B (zh) 命名实体识别语料库的构建方法、系统、设备及存储介质
CN103631791A (zh) 信息聚合归类的显示方法及系统
CN110909123A (zh) 一种数据提取方法、装置、终端设备及存储介质
CN111563382A (zh) 文本信息的获取方法、装置、存储介质及计算机设备
CN101446953A (zh) 并行式关联布告栏爬虫系统
US20150058716A1 (en) System and method for summarizing documents
CN103309879A (zh) 一种管理word文档中的标记的方法及装置
CN113627132B (zh) 数据去重标记码生成方法、系统、电子设备及存储介质
CN110969501A (zh) 网络购物车页面的显示方法、系统、设备和存储介质
Viveros-Jiménez et al. Improving the boilerpipe algorithm for boilerplate removal in news articles using html tree structure
CN113360685A (zh) 笔记内容处理方法、装置、设备和介质
CN111639250A (zh) 企业描述信息获取方法、装置、电子设备及存储介质
CN107767156A (zh) 一种信息录入方法、装置及系统
CN110727845B (zh) 一种基于爬虫文本的最近发文优先处理方法及系统
CN110119694B (zh) 一种图片处理方法、装置及计算机可读存储介质
Van Galen et al. In Search of America: Topic modelling nineteenth-century newspaper archives

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Open date: 20090603