CN100392658C

CN100392658C - 基于本体的主题式网络爬虫系统构建方法

Info

Publication number: CN100392658C
Application number: CNB2006100407422A
Authority: CN
Inventors: 高阳; 苏畅
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2006-05-30
Filing date: 2006-05-30
Publication date: 2008-06-04
Anticipated expiration: 2026-05-30
Also published as: CN1851705A

Abstract

本发明公开了一种基于本体的主题式网络爬虫系统构建方法，该方法包括以下步骤：(1)解析Web页面；(2)预处理当前页面的文本信息得到单词层信息；(3)把单词层信息转化为本体信息；(4)计算页面的主题相关度；(5)主题相关度大于设定值则提取当前所有出链接所指向的URL，否则转至步骤(7)；(6)如果所指向URL已被访问过，则提取下一链接；否则按照该链接所在页面的主题相关度大小插入优先等待访问队列；(7)从优先等待访问队列中选取第一个URL，也就是优先级最高的进行访问；(8)重复执行步骤(1)至(7)，直到出现没有满足条件的新URL。本发明的优点是结果准确率高且计算以及存储开销较小。

Description

基于本体的主题式网络爬虫系统构建方法

一、技术领域

本发明涉及一种爬虫系统构建方法，尤其涉及一种主题式网络爬虫系统构建方法。

二、背景技术

Web爬虫是搜索引擎的核心部分之一，如何使网络爬虫系统能更高效的工作已受到越来越多研究者的重视。其中，针对特定主题的web爬虫系统更成为当今研究的热点。主题式Web爬虫的目标是使爬虫系统尽量避免访问到非主题相关的Web页面，而集中访问那些和主题相关的Web页面。这种Web爬虫系统主要被应用在那些特定领域的搜索引擎和Web信息检索系统中。

目前的主题式爬虫系统主要是基于Web页面的文本关键词统计信息来评价其主题相关度。但是Web页面的内容千差万别，其对应的关键词库通常都十分巨大，所以系统的计算开销很大且需要进行大量的高维数据维护。此外，由于自然语言本身存在的一词多义以及多词一义现象，仅仅通过关键词来刻画主题或者页面的内容往往相当困难，从而使得主题相关性评价出现偏差。本发明通过引入本体技术来解决这一问题。

三、发明内容

1、发明目的：本发明的目的是针对现有技术的不足，提供一种基于本体技术的高效、准确的主题式网络爬虫系统构建方法。

2、技术方案：本发明基于一个以主题概念为核心概念的本体库管理系统，通过把Web页面中单词层上的文本信息转化为概念层上的本体类信息，结合本体结构图计算页面的主题相关性，进而指导爬虫系统的运行。本方法包括以下步骤：

(1)对当前Web页面进行解析；

(2)将当前页面的文本信息进行预处理得到单词层信息；

(3)通过本体管理系统把单词层信息转化为本体信息；

(4)把得到的本体信息结合本体库计算页面的主题相关度；

(5)如果当前页面主题相关度大于设定值则顺序提取当前Web页面中的所有出链接所指向的URL，否则转而执行步骤(7)；

(6)如果该链接所指向URL已被访问过则提取下一链接，如果该URL未被访问则按照该链接所在页面的主题相关度大小插入优先等待访问队列；

(7)从优先等待访问队列中选取第一个URL，也就是优先级最高的进行访问；

(8)重复执行步骤(1)至(7)，直到出现没有满足条件的新URL。

其中，上述步骤(4)中的本体库通过采集现有的公用本体库，并对这些本体库进行处理，得到本方法的本体库，其步骤包括：

(4.1)提取现有本体库中的类；

(4.2)提取现有本体库中类的层次关系和函数关系；

(4.3)把类作为节点，层次关系和函数关系作为连接节点的有向边，组成本体库本体层的基本结构；

(4.4)针对每个本体库中的每个类，构建与该类对应的关键词集合，组成本体库的词汇层。

3、有益效果：按照本发明的方法所构建的网络爬虫系统与现有的爬虫系统相比，其显著优点是：在语义理解的基础上，赋予爬虫系统更高的智能性，使得系统的准确性以及工作效率获得提高。

四、附图说明

图1是本发明的系统组成结构图；

图2是本发明的工作流程图；

图3本体库结构示意图。

五、具体实施方式

如图1所示，本发明方法所构建的网络爬虫系统包含基本爬虫工作模块，主题相关度评价模块以及本体管理系统模块。其中，主题相关度评价模块中又包含预处理以及相关度计算子模块。

本发明方法流程如图2所示，下面详细说明：

步骤(1)：通过对当前Web页面的HTML文件进行解析，分离出其中的主体内容文本信息。

步骤(2)：对分离出来的文本信息进行预处理。这里我们通常根据系统预设的关键词列表统计每个关键词在当前文档中出现的次数N(w_i)。

步骤(3)：根据本体库中各个本体类所对应的关键词集，计算本体类在当前文档中的类频。

本体结构示意图如图3，图中所示为一个以音乐(music)为核心概念的本体库结构图的一部分。该本体结构图包括一系列对现实事物的概念抽象，比如：“music”，“person”，这些概念构成了本体管理系统中的类(class)。此外，图中还包括了比如“to play”等连接类与类之间的逻辑关系以及比如“music”和“jazz”之间的层次关系，这些逻辑关系和层次关系构成了本体管理系统中的关系集(relation)。除了在图中现实的类和关系，本体管理系统还管理着一个低于本体层的词汇层。本体层中的每个类或关系都对应在词汇层中的一个文本词汇集，比如对于类“music”，它所对应的文本词汇集就包括了“song，melody，music”。

根据本体库中各个本体类所对应的关键词集，本体类在当前文档中的类频

可以由下式计算：

f_{c_{k}}^{D} = N_{w_{1}^{k}}^{D} + N_{w_{2}^{k}}^{D} + L + N_{w_{i}^{k}}^{D}

其中

表示类c_k在文档D中出现的频率；类c_k对应于一个文本词汇集：w₁ ^k，w₂ ^k，L，w_i ^k；词汇w_i ^k在文档D中出现了

次。

步骤(4)：由本体类频，结合主题本体库计算当前页面的主题相关度r_D。

在对本体库中的类在文档中的出现次数进行计算之后，就可以得到从一个给定的Web文档到其对应的主题相关性的映射。在实现这一映射的过程中，需要利用本体图中各个要素之间的结构关系，并结合前面计算得到的类频来对本体中的每个类对该文本的主题相关度进行打分，最后对每个类进行综合，最后得到整个页面对主题的相关度。

页面D的主题相关度r_D计算公式如下：

r_{D} = \underset{c_{k} &Element; D}{Σ} (f_{C_{k}}^{D} \times w_{c_{k}})

其中，

为类c_k在页面D中的类频；为类c_k的权值。通常在网络爬虫运行前，需要对每个类的权值赋值

W_{c_{k}}^{0} = 1.00 \times n^{d (c_{k}, T)}

其中n表示折扣因子，d(c_k，T)表示从该类到该本体库核心类，即该主题式网络爬虫系统的主题类T之间的距离。

步骤(5)：把当前页面的主题相关度，与基准值做比较。如果大于基准值，则说明当前页面满足主题相关度要求，需要分离出该页面中的出链接；如果小于基准值，则说明该页面不满足主题相关度的要求，系统转而执行步骤7。

步骤(6)：处理当前页面中的链接信息。

顺序处理当前页面中的所有链接，如果该链接所指向URL已被访问过，则提取下一链接，如果该URL未被访问，则按照该链接所在页面的主题相关度大小插入优先等待访问队列。

步骤(7)：从优先等待访问队列中选取排在队列第一个的URL，也就是优先级最高的进行访问。

步骤(8)：重复执行步骤(1)至(7)，直到出现没有满足条件的新URL或到达一定的限度为止。

Claims

1.一种基于本体的主题式网络爬虫系统构建方法，包括下列步骤：(1)对当前Web页面进行解析，其特征在于该方法还包括下列步骤：