CN106202467A

CN106202467A - 一种面向对等网络的可定义搜索重点的网络爬虫方法

Info

Publication number: CN106202467A
Application number: CN201610563533.XA
Authority: CN
Inventors: 仇伟民; 戴鸿君; 于治楼
Original assignee: Inspur Group Co Ltd
Current assignee: Inspur Group Co Ltd
Priority date: 2016-07-18
Filing date: 2016-07-18
Publication date: 2016-12-07

Abstract

本发明公开了一种面向对等网络的可定义搜索重点的网络爬虫方法，属于计算机网络信息检索领域，本发明要解决的技术问题为如何将对等网络和网络爬虫结合，实现可定义搜索重点的网络爬虫对特定领域和主题实现描述的难度较小而且准确度较高，采用的技术方案为：该方法是利用基于站点页面链接结构的链接导航技术来提高主题信息的抓取准确率和速度，采用易于操作的主题描述来实现高可定制性的网络爬虫，通过配置文件来实现可定制，最终构建出一个可控性强、资源消耗小、数据采集准确性高的轻量级聚焦网络爬虫，以满足P2P搜索的需求。

Description

一种面向对等网络的可定义搜索重点的网络爬虫方法

技术领域

本发明涉及计算机网络信息检索领域，具体地说是一种面向对等网络的可定义搜索重点的网络爬虫方法。

背景技术

随着P2P即对等网络的发展，P2P的网络搜索技术也逐渐被人们所关注，现今已经出现了一些较为原始的系统模型，如MINER-VA，ODISSEA，Coopeer 等，这些系统大多只关注P2P网络搜索的算法方面，未对网络信息采集方面有太多的深入，为运行其系统，一般会假定数据信息有P2P自主结点提供，这也使得P2P的信息采集方面的研究出现空白。

网络爬虫也叫网络机器人，是一种可以自行采集网页信息的程序，可定义搜索重点的网络爬虫可以对特定领域或者主题的信息进行针对收集，现有的可定义搜索重点的网络爬虫对特定领域和主题实现描述的难度较大而且准确度也难以保证，对于网络页面和链接的处理算法也过于复杂，难以被应用于实践，对于搜索重点的把握难以到位，搜索信息的质量不高，资源和时间成本相对较高，而基于P2P的网络搜索对网络爬虫的各方面都提出了更为苛刻的要求和条件。由于使用结点控制，结点要保证对网络爬虫有相对较高的控制力度，对于特定领域范围和主题的描述需要尽可能的简单易懂，结点搜索指定信息类型是可以根据自身所持有的时间和资源情况自主选择，结点的动态性需要保证各个网络爬虫要具备一定的独立性，而网络结点的自身条件的限制也要减小的最低，比如网络带宽和处理能力等。如何将对等网络和网络爬虫结合满足上述要求是目前现有技术中存在的技术问题。

发明内容

本发明的技术任务是针对以上不足，提供一种面向对等网络的可定义搜索重点的网络爬虫方法，来解决如何将对等网络和网络爬虫结合，实现可定义搜索重点的网络爬虫对特定领域和主题实现描述的难度较小而且准确度较高，对于网络页面和链接的处理算法简单化，易于被应用于实践，准确把握搜索重点，提高搜索信息的质量，同时降低资源和时间成本的问题。

本发明的技术任务是按以下方式实现的，一种面向对等网络的可定义搜索重点的网络爬虫方法，该方法是利用基于站点页面链接结构的链接导航技术来提高主题信息的抓取准确率和速度，采用易于操作的主题描述来实现高可定制性的网络爬虫，通过配置文件来实现可定制，最终构建出一个可控性强、资源消耗小、数据采集准确性高的轻量级聚焦网络爬虫，以满足P2P搜索的需求。

作为优选，所述网络爬虫依据设定好的方向抓取对象信息，有选择地访问网页和网页包含的相关链接，根据设定的抓取规则获取所需信息，同时，用户提供特定领域或主题描述用于指定抓取的内容，而且为了确保所获取信息与主题要求的尽可能的一致，一方面需要根据相应的特定领域和主题描述对页面进行相关度评价，根据评价结果过滤掉无关页面；另一方面，还要根据特定领域或主题描述对访问网页后解析出的链接进行评价和过滤，被评价为有用的链接才会被加入待处理URL队列。

作为优选，所述链接导航技术是基于站点链接结构的页面和链接过滤方法。

作为优选，所述网络爬虫的工作过程如下：

（1）、抓取站点主页，从中解析并过滤出索引页面的URL；

（2）、抓取索引页面并从中解析过滤出内容页面的URL；

（3）、抓取内容页面并从中解析过滤得到下载页面的URL；

（4）、从下载页面下载目标数据。

作为优选，所述主题描述采用页面类型限定或站点范围限定，大大减小了主题描述的难度。

作为优选，所述基于配置文件的定制过程如下：用户可在配置文件中指定需要抓取的目标网页类型和站点范围，从而对主题进行描述；并用正则表达式来描述站点主页、索引页面、内容页面和下载页面的URL模式，从而通过URL模式匹配来实现页面过滤和链接过滤。

本发明的面向对等网络的可定义搜索重点的网络爬虫方法具有以下优点：本发明将对等网络和网络爬虫结合，实现可定义搜索重点的网络爬虫对特定领域和主题实现描述的难度较小而且准确度较高，对于网络页面和链接的处理算法简单化，易于被应用于实践，准确把握搜索重点，提高搜索信息的质量，同时降低资源和时间成本

故本发明具有设计合理、使用方便、一物多用等特点，因而，具有很好的推广使用价值。

附图说明

下面结合附图对本发明进一步说明。

附图1为网络爬虫的系统结构示意图；

附图2为实施例1中电影之家站点页面链接结构示意图。

具体实施方式

参照说明书附图和具体实施例对本发明的一种面向对等网络的可定义搜索重点的网络爬虫方法作以下详细地说明。

实施例1：

本发明的一种面向对等网络的可定义搜索重点的网络爬虫方法, 该方法是利用基于站点页面链接结构的链接导航技术来提高主题信息的抓取准确率和速度，链接导航技术是基于站点链接结构的页面和链接过滤方法，采用易于操作的主题描述来实现高可定制性的网络爬虫，通过配置文件来实现可定制，最终构建出一个可控性强、资源消耗小、数据采集准确性高的轻量级聚焦网络爬虫，以满足P2P搜索的需求。网络爬虫依据设定好的方向抓取对象信息，有选择地访问网页和网页包含的相关链接，根据设定的抓取规则获取所需信息，同时，用户提供特定领域或主题描述用于指定抓取的内容，而且为了确保所获取信息与主题要求的尽可能的一致，一方面需要根据相应的特定领域和主题描述对页面进行相关度评价，根据评价结果过滤掉无关页面，主题描述采用页面类型限定或站点范围限定，大大减小了主题描述的难度；另一方面，还要根据特定领域或主题描述对访问网页后解析出的链接进行评价和过滤，被评价为有用的链接才会被加入待处理URL队列。

其中，网络爬虫的系统结构：可定义搜索重点的网络爬虫依据设定好的方向抓取对象信息，有选择地访问网页和网页包含的相关链接，根据设置好的抓取规则获取所需信息，此网络爬虫的结构如附图1所示，与通用的网络爬虫区别点在于，用户需要提供特定领域或主题描述用于指定抓取的内容，而且为了确保所获取信息与主题要求的尽可能的一致，一方面需要根据相应的特定领域和主题描述对页面进行相关度评价，根据评价结果过滤掉无关页面；另一方面．还要根据特定领域或主题描述对访问网页后解析出的链接进行评价和过滤，只有那些被评价为有用的链接才会被加入待处理URL队列。故特定领域定义、主题描述、页面过滤和链接过滤是可定义搜索重点的网络爬虫的重点。

页面链接过滤：页面过滤的关键是页面与主题的相关度评价算法，主要有基于向量空间模型的评价算法、基于潜在语义索引的评价算法、基于贝叶斯分类器的评价算法等。链接过滤主要采用链接分析等技术实现，这些过滤方法实现复杂性较高，需要设置过滤阈值，而且需要处理链接隧道问题。

根据多种网络调查信息所得结论，网络站点内部一般呈现相对固定的组织结构和链接结构，根据一般性的网站分析，站点内的页面分为4类：站点主页、索引页面、内容页面、参考页面，它们之间具有一定的链接关系。通过对国内主要电影下载站点的分析，发现了类似的结构特征。于是将页面分为5类：站点主页、索引页面、内容页面、下载页面和其他页面，它们之间的链接关系如附图2所示，可以利用这种链接结构对页面过滤和链接过滤进行简化和优化。在网站的搜索系统中，爬虫的目的是抓取下载页面，因此页面过滤只需要把下载页面保留即可，而链接过滤只需要把站点主页、索引页面、内容页面和下载页面的链接保留即可，对站点中大量的其他页面则可以直接滤除。

基于这样的链接结构和过滤方法，可定义搜索重点的网络爬虫的工作流程设计为：首先抓取站点主页，从中解析并过滤出索引页面的URL；其次抓取索引页面并从中解析过滤出内容页面的URL；然后抓取内容页面并从中解析过滤得到下载页面的URL；最后从下载页面下载目标数据。这种基于站点链接结构的页面和链接过滤方法称为链接导航技术。一个站点内的每一类网页通常都具有固定的URL模式，这为链接导航提供了一个简单的实现手段，即通过URL模式匹配来实现网页分类，从而实现链接导航。网页的URL模式可以用正则表达式来描述，模式匹配可以采用精确匹配，也可以采用模糊匹配，利用链接导航技术可以简化聚焦网络爬虫的页面过滤和链接过滤方法，避免访问过多无关网页，从而实现对目标页面简单高效的抓取。在“7060电影”上进行的实验表明，采用链接导航技术可以使数据抓取耗时减少1/3～1/2。其他类型的站点结构可能和此发布站点不完全一致，但通常同一主题类型的站点都趋向于具有近似的页面链接结构，因此链接导航技术广泛适用于各种主题的聚焦网络爬虫。

易于操作的主题描述方法：目前主流的主题描述采用的方法一般是关键词描述、基于概念或本体的语义描述等方法。这些方法对于用户的要求相对较高，都需要人为提供反映某一主题的关键词、概念、本体或字典。此外，还有很多主题描述方法是基于机器学习的，通常需要提供一些样本页面用于学习和训练。总体来看，目前的主题描述方法描述难度较大，用户很难方便地实施主题定制，数据采集的准确性也不稳定，容易发生主题偏移现象，并不适合P2P搜索，因此需要为P2P搜索设计一种简单的主题描述方法。

现今网络上的许多P2P网络搜索的应用中，搜索的主题描述很少使用上述的种种复杂的描述方法，本发明提供了一种相对简单的主题描述方法，可以直接通过页面类型限定、站点范围限定等手段实现，这样就大大减小了主题描述的难度。

针对这类目标比较明确的抓取，采用这种简单的主题描述方法，大大降低了描述难度，方便用户实施定制；同时也降低了相应的页面和链接过滤算法的复杂性以及资源和时间开销。另外，这种简单的主题描述方法对目标的描述通常可以达到很高的准确度，可以提高数据抓取的准确性。

基于配置文件的定制：基于上述的主题描述方法、页面和链接过滤方法，用户可方便地对可定义搜索重点的网络爬虫的抓取目标、页面和链接过滤进行定制。具体的定制可以通过配置文件来实现，用户可在配置文件中指定需要抓取的目标网页类型和站点范围，从而对主题进行描述；并用正则表达式来描述站点主页、索引页面、内容页面和下载页面的URL模式，从而通过URL模式匹配来实现页面过滤和链接过滤。

通过上面具体实施方式，所述技术领域的技术人员可容易的实现本发明。但是应当理解，本发明并不限于上述的一种具体实施方式。在公开的实施方式的基础上，所述技术领域的技术人员可任意组合不同的技术特征，从而实现不同的技术方案。

除说明书所述的技术特征外，均为本专业技术人员的已知技术。

Claims

1.一种面向对等网络的可定义搜索重点的网络爬虫方法，其特征在于该方法是利用基于站点页面链接结构的链接导航技术来提高主题信息的抓取准确率和速度，采用易于操作的主题描述来实现高可定制性的网络爬虫，通过配置文件来实现可定制，最终构建出一个可控性强、资源消耗小、数据采集准确性高的轻量级聚焦网络爬虫，以满足P2P搜索的需求。

2.根据权利要求1所述的面向对等网络的可定义搜索重点的网络爬虫方法，其特征在于所述网络爬虫依据设定好的方向抓取对象信息，有选择地访问网页和网页包含的相关链接，根据设定的抓取规则获取所需信息，同时，用户提供特定领域或主题描述用于指定抓取的内容，一方面需要根据相应的特定领域和主题描述对页面进行相关度评价，根据评价结果过滤掉无关页面；另一方面，还要根据特定领域或主题描述对访问网页后解析出的链接进行评价和过滤，被评价为有用的链接才会被加入待处理URL队列。

3.根据权利要求1所述的面向对等网络的可定义搜索重点的网络爬虫方法，其特征在于所述链接导航技术是基于站点链接结构的页面和链接过滤方法。

4.根据权利要求1所述的面向对等网络的可定义搜索重点的网络爬虫方法，其特征在于所述网络爬虫的工作过程如下：

（1）、抓取站点主页，从中解析并过滤出索引页面的URL；

（2）、抓取索引页面并从中解析过滤出内容页面的URL；

（3）、抓取内容页面并从中解析过滤得到下载页面的URL；

（4）、从下载页面下载目标数据。

5.根据权利要求1所述的面向对等网络的可定义搜索重点的网络爬虫方法，其特征在于所述主题描述采用页面类型限定或站点范围限定。

6.根据权利要求1所述的面向对等网络的可定义搜索重点的网络爬虫方法，其特征在于所述基于配置文件的定制过程如下：用户可在配置文件中指定需要抓取的目标网页类型和站点范围，从而对主题进行描述；并用正则表达式来描述站点主页、索引页面、内容页面和下载页面的URL模式，从而通过URL模式匹配来实现页面过滤和链接过滤。