CN103310026A

CN103310026A - 一种基于搜索引擎的轻量级通用网页主题爬虫方法

Info

Publication number: CN103310026A
Application number: CN2013102850006A
Authority: CN
Inventors: 姚瑞波; 周凤波; 翁强
Original assignee: Focus Technology Co Ltd
Current assignee: Focus Technology Co Ltd
Priority date: 2013-07-08
Filing date: 2013-07-08
Publication date: 2013-09-18
Anticipated expiration: 2033-07-08
Also published as: CN103310026B

Abstract

本发明基于搜索引擎的轻量级通用网页主题爬虫方法，包括，初始种子：给定的少量描述特定主题相关种子，根据一定规则，对种子进行扩充至一系列种子；发现网站：将初始种子转换为查询词，通过搜索引擎接口获得相关的若干网站；下载网站：将相关的网站下载到本地并存入数据库；网页解析：从下载的网站进行分析，获取其中的链接信息；种子更新：通过分析已爬取到的新网站，从中提取主题相关词，并以此构造新种子，保证爬取过程持续进行；爬取更新：根据已爬取网站的更新信息，计算重新爬取的周期，使得已爬取网站能实现自适应的自动更新。本发明具有低代价、易实现、高效、准确等特点。

Description

一种基于搜索引擎的轻量级通用网页主题爬虫方法

技术领域

本发明涉及信息检索领域，特别是涉及信息检索中的网页主题爬虫。

背景技术

万维网上的海量信息不断地快速增长和更新，对这个海量信息库进行及时的收集一直是信息检索研究和应用的基础问题，Web爬虫正是解决该问题的经典技术。在很多时候，人们仅仅需要搜索特定领域或主题的Web网站，完成这项任务的爬虫技术即称为主题爬虫。不同领域都有大量的网站，对这些领域网站的自动爬取，是建立该领域的垂直搜索引擎以及特定领域数据挖掘和分析等应用的基础。

虽然特定领域网站之间存在一定的链接关系，但是这也取决于网站的维护程度。如何全面、快速和精确地找到特定领域网站成了主题爬虫系统需要解决的主要问题。另外由于网站更名和合并等因素，使得领域网站的识别有了一定难度。爬虫系统需要从一些已给定的初始网站出发，尽可能多的通过链接寻找到新的网站，并且实现网站爬取的更新。

目前的主题爬虫研究主要包括主题爬行算法和主题相似度计算算法。在主题爬行算法领域，不同于传统爬虫的宽度优先和深度优先搜索策略，主题爬虫为了效率，在此基础上发展出了多种多样的算法。主要分为三类，基于文字内容启发式方法，基于Web超链图方法，基于分类器的方法。基于文字内容的启发策略主要应用的是网页中的文本信息，主要有标题，正文，链接，锚文本等。基于Web图的启发策略的基本思想来自于文献计量学的引文分析理论，这种理论能有效的应用于Web环境。基于Web超链图的方法可克服基于文字内容难以精确描述主题以及分析效率问题。在主题相似度计算算法上，有研究者提出了基于概念主题相似度计算策略，一个关键字在不同的场合往往含有不同的含义，这对中文尤其明显。采用概念的关键字集合能更加细致的对主题进行描述。还有工作者提出了基于本体的自主学习的主题爬虫策略，采用基于概念和关系的方法，收集现实真实生活中的数据作为本体来与网页中提取的本体信息计算网页的相似度。

现有的网页主题爬虫方法存在两方面的问题。一方面是发现特定领域网页的爬取代价问题，为了发现特定领域中的网页，需要对海量的网页进行过滤，这种爬取方式是建立在通用爬取的基础上，实现代价太高。另一方面是发现和特定主题相关的网页的爬取精度问题，即对爬取的网页，需要能较精确地判定是否是特定主题的网页。本发明旨在提出一种解决现有方法这两方面不足的新型通用网页爬虫技术。

发明内容

本发明主要解决的技术问题是提供一种基于搜索引擎的轻量级通用网页主题爬虫技术，该方法有低代价、易实现、高效、准确等优点。

为解决上述技术问题，本发明采用的一个技术方案是：提供一种基于搜索引擎的轻量级通用网页主题爬虫方法，包括步骤为：

（1）初始种子：给定的少量描述特定主题相关种子，如商品简称和全称等，然后根据一定规则，对种子进行扩充，使得每一个种子被扩充为一系列种子；

（2）发现网站：将初始种子转换为查询词，通过搜索引擎接口获得相关的若干网站，并经过多层相关性过滤算法找到和查询词对应的网站；

（3）下载网站：将相关的网站下载到本地并存入数据库；

（4）网页解析：从下载的网站进行分析，获取其中的链接信息，对相关性符合的链接，进一步判断其指向网站是否和主题相关，如果相关，则将该链接存为一个待爬取URL；

（5）种子更新：在下载和爬取线程开始一段时间之后，或无法爬取到新网页时，启动种子更新线程，通过分析已爬取到的新网站，从中提取主题相关词，并以此构造新种子，保证爬取过程持续进行；

（6）爬取更新：根据已爬取网站的更新信息，计算重新爬取的周期，使得已爬取网站能实现自适应的自动更新。

在本发明一个较佳实施例中，步骤（1）中所述初始种子需要人工提供使得爬取持续进行的主题相关词汇，一般而言，特定领域的用户都熟悉本领域内的典型词汇，因此这种提出初始种子的过程较为可行。

在本发明一个较佳实施例中，步骤（2）中对所述将传统繁重的爬虫寻找相关网站的难题转化为简单的搜索查询任务，即利用目前成熟的搜索引擎查询API，准确定位和查询词相关的候选网站集合，这极大避免了主题爬虫中漫无目遍历网页的过程，简化了爬虫整体设计。

在本发明一个较佳实施例中，步骤（4）中所述网页解析包括两方面的重要目的，一方面是发现爬取到的网站中的外链，由此发现更多的主题相关网站，另一方面通过分析网页文本来自动构造新的种子，是实现种子更新的基础。

在本发明一个较佳实施例中，步骤（6）中所述爬取更新则是为了保证已爬取的网页和实际的网站尽量保持一致，即爬虫能根据实际网页发生变化的过程，智能地调整自身重新对网站进行爬取的周期。

本发明的有益效果是：本发明的基于搜索引擎的轻量级通用网页主题爬虫方法，该方法相对于现有方法拥有低代价、易实现、高效、准确等特点，提出了一个基于搜索引擎的通用网页主题爬虫系统实现具体框架，提出了一种基于向量空间模型的相关网站三层主题过滤方法，设计并实现主题爬虫的更新策略，还提出一种补种策略，弥补特定主题下的网站缺乏密集链接的局限性。

附图说明

图1是本发明基于搜索引擎的轻量级通用网页主题爬虫一较佳实施例的流程图；

具体实施方式

下面结合附图对本发明的较佳实施例进行详细阐述，以使本发明的优点和特征能更易于被本领域技术人员理解，从而对本发明的保护范围做出更为清楚明确的界定。

请参阅图1，本发明提供一种新型基于搜索引擎的轻量级网页主题爬虫方法，包括步骤为：

（1）给定少量描述特定主题相关的词汇作为种子，如某商品的简称和全称等，并构造该领域内种子扩充规则，如一个商品的种子可以通过品牌规则扩充为一系列种子，一个学术会议的种子可以通过年份扩充为一系列种子；

（2）根据扩充后的种子，将种子转换为查询词，通过搜索引擎Google，Yahoo或Bing等提供的搜索查询接口（该接口通常为JSON格式）得到与查询词相关的若干个候选网站。采用三层相关性过滤算法从候选网站中寻找和查询词对应的网站；

（3）将相关的网站下载到本地，具体包括把网站URL等信息存入爬取数据库，并把网站结构信息和网页存入本地硬盘，不同网站的网页采用文件夹进行组织；

（4）分析已爬取到的网站，获取其中的链接信息，对相关性符合的链接，进一步判断其指向网站是否和主题相关，如果相关，则将该链接存为一个待爬取URL；

（5）在分析已爬取网站的同时，从网页文本中提取新的主题相关词，并以此根据规则构造新种子，保证爬取过程持续进行。在下载和爬取线程开始一段时间之后，以及无法爬取到新网页时，启动种子更新线程；

（6）在定期重爬取已爬取网站的同时，收集网站的更新信息，计算重新爬取的周期，使得已爬取网站能实现自适应的自动更新。

本发明中的新型基于搜索引擎的轻量级网页主题爬虫易于实现。首先，根据给定的种子，利用搜索引擎获得初始网站集合；然后，通过网站间的链接关系发现更多的主题相关网站，其中采用基于向量空间模型的相关度过滤以及正则表达式匹配过滤错误的网站；最后，通过搜索引擎逐年对网站进行补全，同时从新发现的网站中的链接构造更多的种子。

本发明中的主题相关过滤是一种新型的基于向量空间模型的相关网站三层主题过滤方法。首先，根据网站URL链接字符串、简称和全称进行初步的主题过滤；其次，进一步利用搜集的领域典型网站的URL构成的向量进一步进行过滤；最后，提取网站主页的关键词，并与领域背景知识进行向量相关度计算，判断网站是否是属于特定主题。通过以上三层主题过滤，能有效过滤掉偏离主题的网站，减少需要爬取和分析的网页数量。

本发明中的主题爬虫更新是一种新型的爬虫更新策略。首先，根据网页更新符合泊松分布的特点，计算各网站内网页的更新周期，取其平均值作为站点更新周期；然后，以该周期作为爬虫重新爬取网站的间隔周期初始值，利用自适应的方法，根据网站动态变化情况调整更新周期，从而达到有效利用带宽、合理重复爬取和保证网站实时性的目的。

本发明中的爬虫种子补充是一种新型的补种策略。领域网站之间往往缺乏密集的相互链接，这为主题爬虫的效率造成较大的局限性。为了尽可能多地收集主题相关网站，系统定期从一些具有Hub链接特征的领域列表网站出发，采用了Best First Search的方法对URL进行爬取，作为新的种子添加到种子集中，并分别利用Berkeley DB和Bloom Filter实现未访问和已访问URL队列。

本发明提出了轻量级网页主题爬虫的概念，用以克服传统主题爬虫在发现相关网站方面的效率问题，即将发现相关网站的过程转换为一个简单的搜索引擎查询过程，避免了费事耗力的爬取大量无关网站的过程。该轻量级网页主题爬虫概念的提出能极大地降低传统主题爬虫的实现难度。

本发明的所有环节均进行了大量的实验验证，包括搜索引擎访问规律探查、网站解析策略比较、种子质量对性能影响分析、网站链接特征和搜索引擎返回记录数对比、搜索策略和关键参数进行优化选择等。我们的实验结果表明，采用本发明的主题爬虫系统在62小时内的自动运行中顺利爬取到3109个计算机科学相关学术会议网站，基本包含了该领域的现有网站，说明了本发明具有较好的可行性和效率。

以上所述仅为本发明的实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种基于搜索引擎的轻量级网页主题爬虫方法，其特征在于，包括步骤为：

步骤1、初始种子：给定的少量描述特定主题相关种子，然后根据主题扩充规则，对种子进行扩充，使得每一个种子被扩充为一系列种子；

步骤2、发现网站：将初始种子转换为查询词，通过搜索引擎接口获得相关的若干网站，并经过多层相关性过滤算法找到和查询词对应的网站；

步骤3、下载网站：将相关的网站下载到本地并存入数据库；

步骤4、网页解析：从下载的网站进行分析，获取其中的链接信息，对相关性符合的链接，进一步判断其指向网站是否和主题相关，如果相关，则将该链接存为一个待爬取URL；

步骤5、种子更新：通过分析已爬取到的新网站，从中提取主题相关词，并以此构造新种子，保证爬取过程持续进行；

步骤6、爬取更新：根据已爬取网站的更新信息，计算重新爬取的周期，使得已爬取网站能实现自适应的自动更新。

2.根据权利要求1所述的基于搜索引擎的轻量级网页主题爬虫方法，其特征在于，步骤1中所述初始种子需要人工提供使得爬取持续进行的主题相关词汇，一般而言，特定领域的用户都熟悉本领域内的典型词汇，因此这种提出初始种子的过程较为可行。

3.根据权利要求1所述的基于搜索引擎的轻量级网页主题爬虫方法，其特征在于，步骤2中对所述将传统繁重的爬虫寻找相关网站的难题转化为简单的搜索查询任务，即利用目前成熟的搜索引擎查询API，准确定位和查询词相关的候选网站集合，这极大避免了主题爬虫中漫无目遍历网页的过程，简化了爬虫整体设计。

4.根据权利要求1所述的基于搜索引擎的轻量级网页主题爬虫方法，其特征在于，步骤4中所述网页解析包括两方面的内容，一方面是发现爬取到的网站中的外链，由此发现更多的主题相关网站，另一方面通过分析网页文本来自动构造新的种子，是实现种子更新的基础。

5.根据权利要求1所述的基于搜索引擎的轻量级网页主题爬虫方法，其特征在于，步骤6中所述爬取更新则是为了保证已爬取的网页和实际的网站尽量保持一致，即爬虫能根据实际网页发生变化的过程，智能地调整自身重新对网站进行爬取的周期。