CN101436197B - 同话题定位跟踪式论坛爬虫系统 - Google Patents

同话题定位跟踪式论坛爬虫系统 Download PDF

Info

Publication number
CN101436197B
CN101436197B CN2008101808246A CN200810180824A CN101436197B CN 101436197 B CN101436197 B CN 101436197B CN 2008101808246 A CN2008101808246 A CN 2008101808246A CN 200810180824 A CN200810180824 A CN 200810180824A CN 101436197 B CN101436197 B CN 101436197B
Authority
CN
China
Prior art keywords
hyperlink
topic
same
group
web
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN2008101808246A
Other languages
English (en)
Other versions
CN101436197A (zh
Inventor
杨溥
郭军
徐蔚然
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
Original Assignee
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications filed Critical Beijing University of Posts and Telecommunications
Priority to CN2008101808246A priority Critical patent/CN101436197B/zh
Publication of CN101436197A publication Critical patent/CN101436197A/zh
Application granted granted Critical
Publication of CN101436197B publication Critical patent/CN101436197B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明公开了一种同话题定位跟踪式论坛爬虫系统,包括以下部件:非文本粗略过滤器,非文本精确过滤器,超链接补全器,纯网页超链接存储库,同话题定位跟踪器,同话题网页超链接存储库,网页组数据下载器,统一编号器,网页组数据存储库,以及纯网页超链接供应器。通过应用本发明所描述的系统,可以有效地解决爬虫系统采集论坛数据大量冗余和凌乱无序的问题;可以为搭建论坛搜索引擎系统的重要组成部分——论坛数据采集系统提供通用可靠的搭建框架;显著降低论坛爬虫系统的开发难度,进一步有效地降低论坛搜索引擎系统开发成本。

Description

同话题定位跟踪式论坛爬虫系统
技术领域
本发明涉及网络数据采集系统,尤其涉及一种同话题定位跟踪式论坛爬虫系统。
背景技术
随着电脑技术的发展普及和互联网的迅速崛起,人们渐渐从传统的交流沟通形式中抽身而出,利用大量的时间和精力投入到新兴的交流沟通形式-------论坛中。论坛是电脑和互联网的产物,它具有着很多优点,如实时性,广泛性等等。正是这些显著的优点使得人们在论坛上各抒己见,讨论热点问题,交流技术和心得等等。因而论坛上有许多十分重要的信息,这些信息通常难以在论坛以外的地方获得。由于论坛与其他网站显著不同的组织结构方式,如每个话题的强烈的连续性和每个用户信息的网页重复展示性等等,加之巨大的访问量和巨大的广告投放量,使得论坛在拥有独到巨大重要信息的同时还受到巨大冗余信息的困扰。在当今这个讲究效率的时代,人们不可能有时间去一页一页翻找关于这个热点话题的有用的信息,因而人们就理所当然的将目光投向一般的搜索引擎,以期望能够利用它有效高质量地便捷检索到需要的信息。但是因特网上的一般搜索引擎对于检索普通结构的网站,典型的如门户网站的能力较强但检索论坛这种特殊结构的网站的能力很弱。即使一些一般搜索引擎能够实现检索论坛,但是也是将论坛简化为普通的网站处理,如强行将每个话题的强烈的连续性割裂等等,这样使得论坛的优越性被扼杀。为了解决这一问题,继而人们又想到了在最小的代价下将一般的搜索引擎转变为针对论坛特殊结构的搜索引擎。而在这个转变中,人们发现除了爬虫系统的难以简单移植外,搜索引擎系统的其他部分大同小异,因此论坛爬虫系统成为论坛搜索引擎的核心和焦点。爬虫系统的论坛特殊结构适应性受到越来越多的学者的关注。
由于论坛特殊结构主要体现在以下四个方面:1.论坛冗余信息多,如发帖人的头像,发帖人的个人信息页面,广告链接等等都是冗余信息;2.论坛内部链接简单化处理,如超链接地址一般不包含完整形式,如为了设计方便省略主机名等等,但爬虫系统对于简单化处理的超链接无法识别;3.论坛讨论同一话题的网页之间有很强的关联度,但一般通用抓取忽略这个重要信息,使得网页凌乱无序;4.爬抓网页单一割裂,难以组织。解决了这些问题能够大大地提高论坛爬抓的效率和质量,进一步降低论坛搜索引擎的开发难度。因而怎样行之有效地解决这些难题成为众多学者关注的焦点问题。因此,本发明针对以上四个不同方面引入四种不同的技术来一一解决。对于冗余信息通过非文本精确过滤器解决;对于内部链接不完整通过超链接补全器解决;对于同一话题的网页之间强关联度通过同话题定位跟踪器解决;对于爬抓网页单一割裂通过统一编号器组织解决。
发明内容
针对现有技术存在的问题,本发明的目的是提供一种能够有效地解决爬虫系统采集论坛数据大量冗余和凌乱无序的问题,从而高效率高质量地抓取论坛数据的爬虫系统。
为达到上述目的,本发明提供一种同话题定位跟踪式论坛爬虫系统,其特征在于包括:
非文本粗略过滤器,用于提取网页中的所有超链接;
非文本精确过滤器,用于过滤去除所有指向不是文本信息的超链接;
超链接补全器,用于修正并且补完整超链接;
纯网页超链接存储库,用于保存网页中所有指向纯文本信息的超链接;
同话题定位跟踪器,用于定位并且跟踪一系列同一话题的网页组;
同话题网页超链接存储库,用于存储在所述同话题定位跟踪器中被定位并且跟踪一系列同一话题的网页组的超链接;
网页组数据下载器,用于下载在所述同话题网页超链接存储库中被超链接指向的网页组;
统一编号器,用于为在所述网页组数据下载器中下载的网页组进行统一分配标识号码;
网页组数据存储库,用于存储在所述网页组数据下载器中下载的网页组;
纯网页超链接供应器,用于向所述非文本粗略过滤器提供需要处理的超链接。
所述系统中,所述同话题定位跟踪器包括:
页面编号自动累加器,用于分析判断当前网页在同一话题中的位置编号,并且自动累加一次位置编号;
同话题网页组队尾判断器,用于分析判断当前网页在同一话题中的位置编号是否为队尾。
本发明的有益效果在于,通过应用本发明所描述的系统,可以有效地解决爬虫系统采集论坛数据大量冗余和凌乱无序的问题;可以为搭建论坛搜索引擎系统的重要组成部分------论坛数据采集系统提供通用可靠的搭建框架;显著降低论坛爬虫系统的开发难度,进一步有效地降低论坛搜索引擎系统开发成本。
结合附图,本发明的其他特点和优点可以从下面通过举例来对本发明的原理进行解释的优选实施方式的说明中变得更清楚。
附图说明
图1是根据本发明的一个实施方式的系统的结构图。
图2示出图1中同话题定位跟踪器内部结构的一个例子。
具体实施方式
下面将结合附图对本发明的具体实施方式进行详细描述。
图1是根据本发明的一个实施方式的系统的结构图。101表示非文本粗略过滤器,102表示非文本精确过滤器,103表示超链接补全器,104表示纯网页超链接存储库,105表示同话题定位跟踪器,106表示同话题网页超链接存储库,107表示网页组数据下载器,108表示统一编号器,109表示网页组数据存储库,以及110表示纯网页超链接供应器。
非文本粗略过滤器101,用于分析并提取网页中的超链接。一个非文本粗略过滤器101的具体实施例是通过网页中标识超链接的标记语言来判断网页中的超链接,然后在网页中通过正则表达式技术来匹配这些超链接的标记语言,若能够匹配上,则可判断此处为网页的超链接并且提取该超链接;若不能够匹配上,则可判断此处不是网页的超链接并不做提取处理。以上是非文本粗略过滤器101的一个具体实施例,其他不同的实施例不构成对本发明的限制。
非文本精确过滤器102,用于过滤去除所有经过非文本粗略过滤器101的指向不是文本信息的超链接。由于论坛冗余信息多,如发帖人的头像为图像信息,一般以图像的后缀标识,如jpeg,png等等,论坛背景音乐为音频信息,一般以音频的后缀标识,如mp3,wma等等,这些都是数据量巨大的冗余信息。可以通过过滤的手段来去除。一个非文本精确过滤器102的具体实施例是通过正则表达式,匹配经过非文本粗略过滤器101提取出的超链接的数据类型的后缀如.html,.htm,.wav,.mp3,.mov等。若当前超链接指向的数据的类型为纯文本信息,如html,htm等等,则不对当前超链接做任何处理,即不过滤当前超链接;若当前超链接指向的数据的类型不是纯文本信息,如jpeg,wav,mp3等等,则删除不保存当前超链接,也即过滤掉当前超链接。以上是非文本精确过滤器102的一个具体实施例,其他不同的实施例不构成对本发明的限制。
超链接补全器103,用于修正并且补完整经过非文本精确过滤器102处理后的超链接。由于为了设计方便,论坛内部链接绝大多数都是经过简单化处理的,如省略主机名等等,这样使得超链接地址一般不包含完整形式,但爬虫系统对于这种不完整的超链接无法简单识别,需要做一些技术处理用来补全超链接。一个超链接补全器103的具体实施例是可以通过字符串判断技术,由于论坛的主机名是不变的,而且是已知的,因此将由非文本精确过滤器102处理后的超链接看做一个字符串,通过字符串比较技术取出字符串的与论坛主机名相同长度的字符串,然后将该取出的字符串与论坛主机名进行比较,若两者相同,则此超链接为完整的,不做修正补全处理;若两者不相同,则此超链接为不完整的,做修正补全处理。以上是超链接补全器103的一个具体实施例,其他不同的实施例不构成对本发明的限制。
纯网页超链接存储库104,用于存储经过超链接补全器103处理后的纯网页超链接数据。一个纯网页超链接存储库104的具体实施例是通过现有的关系型数据库,如mySQL,Oracle等等,这样便于查找和管理。以上是纯网页超链接存储库104的一个具体实施例,其他不同的实施例不构成对本发明的限制。
同话题定位跟踪器105,用于定位并且跟踪一系列同一话题的网页组。一个具体实施例在图3中所示。
同话题网页超链接存储库106,用于存储经过同话题定位跟踪器105跟踪定位后的一系列同一话题的网页组的超链接数据。一个同话题网页超链接存储库106的具体实施例是通过现有的关系型数据库,如mySQL,Oracle等等,这样便于查找和管理。以上是同话题网页超链接存储库106的一个具体实施例,其他不同的实施例不构成对本发明的限制。
网页组数据下载器107,用于下载在同话题网页超链接存储库106中被超链接指向的网页组。
统一编号器108,用于为在网页组数据下载器107中下载的网页组进行统一分配标识号码。由于爬抓网页单一割裂,但是网页之间有强的话题关联性,通过统一分配标识号码将同话题的论坛网页之间的强关联性显性表示出来。一个统一编号器108的具体实施例是在同一话题之间的网页数据之前加入便于识别的标记号,如*1@1表示第一个话题的第一个网页;*2@2表示第二个话题的第二个网页......,依此类推。以上是统一编号器108的一个具体实施例,其他不同的实施例不构成对本发明的限制。
网页组数据存储库109,用于存储在网页组数据下载器107中下载的网页组。一个网页组数据存储库109的具体实施例是通过现有的关系型数据库,如mySQL,Oracle等等,这样便于查找和管理。以上是网页组数据存储库109的一个具体实施例,其他不同的实施例不构成对本发明的限制。
纯网页超链接供应器110,用于向非文本粗略过滤器101提供需要处理的超链接。一个纯网页超链接供应器110的具体实施例是检测纯网页超链接存储库104中是否还有未被处理的超链接,若还有未被处理的超链接,则读取此超链接,然后将此超链接提供给非文本粗略过滤器101;若没有未被处理的超链接,则爬虫系统停止。以上是纯网页超链接供应器110的一个具体实施例,其他不同的实施例不构成对本发明的限制。
图2示出图1中同话题定位跟踪器内部结构的一个例子。除了同话题定位跟踪器105以外,图2中的各部件与图1中的各部件相同。
如图2所示,同话题定位跟踪器105包括页面编号自动累加器1051和同话题网页组队尾判断器1052。
页面编号自动累加器1051,用于分析判断当前网页在同一话题中的位置编号,并且自动累加一次位置编号。一个页面编号自动累加器1051具体实施例是通过字符串比较技术将当前网页超链接后面的page信息取出来,然后判断当前网页的page数为多少,最后在此page数量上加一。如:
http://forum.byr.edu.cn/wForum/disparticle.php?boardName=HardWare-ID=92190pos=7&page=1,从page=1可知,此为该话题的第一个页面,通过page数量加一可得到该话题的第二个页面为:
http://forum.byr.edu.cn/wForum/disparticle.php?boardName=HardWare-ID=92190pos=7&page=2。对于不同的论坛,所加的形式稍有差异,需要指出的是这仅仅是举例,所加的不同形式不构成对本发明的限制。以上是页面编号自动累加器1051的一个具体实施例,其他不同的实施例不构成对本发明的限制。
同话题网页组队尾判断器1052,用于分析判断当前网页在同一话题中的位置编号是否为队尾。一个同话题网页组队尾判断器1052具体实施例是将经过页面编号自动累加器1051累加后的超链接再在page数量上加一,然后通过网页的大小,网页的头信息比较判断加一前后网页是否相同。若相同,则可判断当前网页是队尾网页;若不相同,则可判断当前网页不是队尾网页。如页面编号自动累加器1051的具体实施例中的例子,该话题的队尾网页为:
http://forum.byr.edu.cn/wForum/disparticle.php?boardName=HardWare-ID=92190pos=7&page=4,page数量上加一后的网页为:
http://forum.byr.edu.cn/wForum/disparticle.php?boardName=HardWare-ID=92190pos=7&page=5,两者的网页大小都为189K并且头信息是一样的,说明该话题的队尾网页为:
http://forum.byr.edu.cn/wForum/disparticle.php?boardName=HardWare-ID=92190pos=7&page=4。以上是同话题网页组队尾判断器1052的一个具体实施例,其他不同的实施例不构成对本发明的限制。
以上结合附图描述了本发明的具体实施方式,各种举例说明不对发明的实质内容构成限制,本发明不限于上面提供的实施细节,可以在不脱离本发明特征的情况下以另外的实施例实现。所属技术领域的普通技术人员在阅读了说明书后可以对以前所述的具体实施方式做修改或变形,而不背离发明的实质和范围。

Claims (2)

1.一种同话题定位跟踪式论坛爬虫系统,其特征在于包括:
非文本粗略过滤器,用于提取网页中的所有超链接;
非文本精确过滤器,用于过滤去除所有指向不是文本信息的超链接;
超链接补全器,用于修正并且补完整超链接;
纯网页超链接存储库,用于保存网页中所有指向纯文本信息的超链接;
同话题定位跟踪器,用于定位并且跟踪一系列同一话题的网页组;
同话题网页超链接存储库,用于存储在所述同话题定位跟踪器中被定位并且跟踪一系列同一话题的网页组的超链接;
网页组数据下载器,用于下载在所述同话题网页超链接存储库中被超链接指向的网页组;
统一编号器,用于为在所述网页组数据下载器中下载的网页组进行统一分配标识号码;
网页组数据存储库,用于存储在所述网页组数据下载器中下载的网页组;
纯网页超链接供应器,用于向所述非文本粗略过滤器提供需要处理的超链接。
2.根据权利要求1所述的同话题定位跟踪式论坛爬虫系统,其特征在于,所述同话题定位跟踪器包括:
页面编号自动累加器,用于分析判断当前网页在同一话题中的位置编号,并且自动累加一次位置编号;
同话题网页组队尾判断器,用于分析判断当前网页在同一话题中的位置编号是否为队尾。
CN2008101808246A 2008-11-25 2008-11-25 同话题定位跟踪式论坛爬虫系统 Expired - Fee Related CN101436197B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2008101808246A CN101436197B (zh) 2008-11-25 2008-11-25 同话题定位跟踪式论坛爬虫系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2008101808246A CN101436197B (zh) 2008-11-25 2008-11-25 同话题定位跟踪式论坛爬虫系统

Publications (2)

Publication Number Publication Date
CN101436197A CN101436197A (zh) 2009-05-20
CN101436197B true CN101436197B (zh) 2010-09-08

Family

ID=40710635

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2008101808246A Expired - Fee Related CN101436197B (zh) 2008-11-25 2008-11-25 同话题定位跟踪式论坛爬虫系统

Country Status (1)

Country Link
CN (1) CN101436197B (zh)

Also Published As

Publication number Publication date
CN101436197A (zh) 2009-05-20

Similar Documents

Publication Publication Date Title
CN104077377B (zh) 基于网络文章属性的网络舆情热点发现方法和装置
CN103365924B (zh) 一种互联网信息搜索的方法、装置和终端
Renouf WebCorp: providing a renewable data source for corpus linguists
CN105701091B (zh) 一种基于语义的pdf文档的处理方法及处理装置
Shapira et al. Content-based data leakage detection using extended fingerprinting
TW202001620A (zh) 自動化網站資料蒐集方法
CN107480200A (zh) 基于词标签的词语标注方法、装置、服务器及存储介质
CN104391978A (zh) 用于浏览器的网页收藏处理方法及装置
CN107977420A (zh) 一种演进式文档的摘要提取方法、装置及可读存储介质
CN106611029A (zh) 提高网站站内搜索效率的方法和装置
US8037403B2 (en) Apparatus, method, and computer program product for extracting structured document
CN109657043B (zh) 自动生成文章的方法、装置、设备及存储介质
CN101436196B (zh) 自动动态更新论坛爬虫系统的构建方法
WO2017000659A1 (zh) 一种富集化url的识别方法和装置
CN111639250B (zh) 企业描述信息获取方法、装置、电子设备及存储介质
Nasution et al. A method to extract the forensic about negative issues from Web
CN101436197B (zh) 同话题定位跟踪式论坛爬虫系统
Wang et al. RSDC'09: Tag Recommendation Using Keywords and Association Rules.
CN104216901A (zh) 信息搜索的方法和系统
Sluban et al. URL Tree: Efficient unsupervised content extraction from streams of web documents
CN107451168A (zh) 基于词汇统计的档案分类系统及方法
CN108733687A (zh) 一种基于文字识别的信息检索方法和系统
CN106611022A (zh) 提高网站站内搜索效率的方法和装置
CN109145302A (zh) 基于语义文本的大宗农产品投资者恐慌情绪测度方法
Zhao et al. Micro-blog Keyword Extraction Method Based on Graph Model and Semantic Space.

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C17 Cessation of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20100908

Termination date: 20101125