CN101382956A

CN101382956A - 一种面向主题的信息采集方法和系统

Info

Publication number: CN101382956A
Application number: CNA2008102235237A
Authority: CN
Inventors: 李佳文; 张勇东; 郭俊波
Original assignee: Institute of Computing Technology of CAS
Current assignee: Institute of Computing Technology of CAS
Priority date: 2008-10-06
Filing date: 2008-10-06
Publication date: 2009-03-11
Anticipated expiration: 2028-10-06
Also published as: CN101382956B

Abstract

本发明提供一种面向主题的信息采集方法，包括下列步骤：1)根据待采集链接队列中链接的顺序，从所述待采集链接队列中获得多个链接，采集并存储所述多个链接的页面内容，提取所述页面中的新链接，判定所述页面的主题相关性，提取所述页面的相关链接集合，将所述新链接添加到所述待采集链接队列中；2)根据所述页面的相关链接集合和所述页面的主题相关性，计算所有链接的页面的主题相关性，并调整添加了所述新链接的待采集链接队列中的链接的顺序，重复步骤1和2直至采集结束。上述方法极大的减小了对存储空间的需求；并且提高了面向主题信息采集的有效性。

Description

一种面向主题的信息采集方法和系统

技术领域

本发明涉及一种信息采集技术，具体的说，涉及一种面向主题的信息采集方法和系统。

背景技术

搜索引擎(Search Engine)的诞生，使得检索信息的能力获得了极大的提高。尽管搜索引擎得到了飞速的发展和广泛的应用，当前的搜索引擎仍然无法完全满足用户的需求，在检索结果的准确性、覆盖率、时效性等方面都还存在不足，搜索引擎依然面临巨大的技术挑战。通用搜索引擎为用户提供不限定主题、内容广泛的信息搜索服务，为了保证检索内容的覆盖率，搜索引擎希望能够索引尽可能多的内容。同时为了保证检索结果的时效性，需要尽可能减少索引库与数据源网站数据同步的延时。

在通用搜索引擎面临上述难以解决的问题时，面向主题的搜索引擎(又称为垂直搜索引擎)受到人们越来越多的关注。如面向BBS、面向视频内容、面向科技文献等各种针对特定领域、特定主题、特定网站类型的搜索引擎。面向主题的搜索引擎只对特定网站或特定主题的网页进行索引，从信息采集的角度，面向主题的搜索引擎需要过滤与本主题无关的内容，从而减少了网页采集和分析的数据规模。面向主题的搜索引擎可以利用领域知识和特点，通过具有特色的采集调度和内容抽取技术，实现比通用搜索引擎获取网页更高的效率，并提高信息抽取的质量。

现有技术中的面向主题的搜索引擎主要由网页采集、网页信息抽取、索引、检索等模块组成。其中网页采集抽取是搜索引擎的数据来源和基础。面向主题的网页采集方法的一般步骤分为：

1)设定采集种子网页，并提取该网页中出现的新链接，作为待采集的网页；

2)采集网页；

3)对采集到的网页进行分析，判断网页是否与主题相关，并且提取出该网页中出现的新链接，作为待采集的网页。并重复步骤2。

从降低网络带宽和磁盘存储需求的角度出发，一个优秀的面向主题的网络信息采集方法应该具有较高的采集有效性，即所采集页面中与主题相关的页面所占的比例要尽可能的高，这样可以极大的降低无关数据的采集量和存储量。

发明内容

本发明要解决的技术问题是提供一种面向主题的信息采集方法和系统，来提高面向主题的互联网信息采集的有效性。

根据本发明的一个方面，提供了一种面向主题的信息采集方法，包括下列步骤：

1)根据待采集链接队列中链接的顺序，从所述待采集链接队列中获得多个链接，采集并存储所述多个链接的页面内容，提取所述页面中的新链接，判定所述页面的主题相关性，提取所述页面的相关链接集合，将所述新链接添加到所述待采集链接队列中；

2)根据所述页面的相关链接集合和所述页面的主题相关性，计算所有链接的页面的主题相关性，并调整添加了所述新链接的待采集链接队列中的链接的顺序，重复步骤1)和2)直至采集结束。

其中，所述步骤1)中的所述提取所述页面的相关链接集合包括下列步骤：

11)根据所述页面内容，构建所述页面的DOM树；

12)提取所述DOM树的极大并列子树族，由所述极大并列子树族的并列节点集合构成所述页面的相关链接集合。

其中，所述步骤11)是利用开源工具HTML Parser完成。

其中，所述步骤11)还包括：

111)删除所述DOM树中的非链接型叶子节点。

其中，所述步骤12)所述提取所述DOM树的极大并列子树族包括：A.置并列子树族集合

置栈

将所述DOM树的根节点root添加到栈中；

B.如果

则集合S即为所求集合，否则取出ST的栈顶元素p；

C.如果p是一个叶子节点，返回步骤B；

D.如果p只有一个儿子节点q，将q添加到栈ST当中，返回步骤B；

E.判断T＝{Tree(child_i(p))|i＝1...cn(p)}是否构成了以p为根节点的并列子树族，如果是，则将T添加到S当中，否则以此将child₁(p)，child₂(p)，...，child_cn(p)(p)添加到栈ST当中，转至步骤B。

其中，所述步骤1)中所述判定所述页面的主题相关性采用文本分类方法。

其中，所述步骤2)中所述根据所述页面的相关链接集合和所述页面的主题相关性，计算所有链接的页面的主题相关性，包括：

21)对于已经采集的，但非确实主题相关的页面，根据所述非确实主题相关的页面中的新链接的个数，以及所述非确实主题相关的页面中的新链接的页面的主题相关性，计算所述非确实主题相关的页面的主题相关性；

22)对于步骤1)所述新链接所指向的页面，根据所述新链接所在的相关链接集合内的链接的平均主题相关性，以及所述新链接所在的链接的个数，计算所述新链接的页面的主题相关性。

其中，所述步骤21)和所述步骤22)根据雅各比迭代法和高斯—塞德尔迭代法进行计算。

其中，所述雅各比迭代法和高斯—塞德尔迭代法进行8至12次迭代。

根据本发明的另一方面，还提供了一种面向主题的信息采集系统，包括：

待采集链接队列，用于存储链接；

存储信息库，用于存储页面内容、页面的相关链接集合和页面的主题相关性；

多线程采集器，用于根据链接的顺序，从所述待采集链接队列中获得多个链接，并从互联网中采集所述多个链接的页面的内容并存储至所述存储信息库，提取所述页面中的新链接，判定所述页面的主题相关性，提取所述页面的相关链接集合，并存储所述页面的主题相关性和所述页面的相关链接集合到所述存储信息库，将所述新链接添加到所述待采集链接队列；

采集调度器，用于根据所述页面的相关链接集合和所述页面的主题相关性，计算所述待采集链接队列中所有链接的页面的主题相关性，并调整所述待采集链接队列中链接的顺序。

在该系统中，所述多线程采集器包括提取相关链接集合装置，用于提取所述页面的相关链接集合，所述提取相关链接集合装置进一步包括：

用于根据所述页面内容，构建所述页面的DOM树的装置；和

用于提取所述DOM树的极大并列子树族，由所述极大并列子树族的并列节点集合构成所述页面的相关链接集合的装置。

在该系统中，所述采集调度器包括用于计算所有链接的页面的主题相关性的装置，所述用于计算所有链接的页面的主题相关性的装置包括：

计算非确实主题相关的页面的主题相关性的装置，用于对于已经采集的，但非确实主题相关的页面，根据所述非确实主题相关的页面中的新链接的个数，以及所述非确实主题相关的页面中的新链接的页面的主题相关性，计算所述非确实主题相关的页面的主题相关性；

计算新链接的页面的主题相关性的装置，用于对于所述新链接所指向的页面，根据所述新链接所在的相关链接集合内的链接的平均主题相关性，以及所述新链接所在的链接的个数，计算所述新链接的页面的主题相关性。

本发明的有益效果在于：本发明放弃采用链接的文本信息，应用基于链接拓扑结构信息，极大的减小了对存储空间的需求；并且提高了面向主题信息采集的有效性。

附图说明

图1是根据本发明一个实施例的面向主题的信息采集系统框架图；

图2是DOM树并列叶子节点集合示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图，对根据本发明一个实施例的面向主题的信息采集方法进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

面向主题信息采集方法基于链接拓扑结构分析的思想，根据网页信息分析以及主题相关性预测方法对互联网页面进行采集，极大地提高视面向主题采集有效性。首先对互联网页面内容进行分析，提取并列链接集合，判定该页面的主题相关性；然后依据该互联网页面内的链接之间的拓扑结构信息，计算该页面内链接所指向的页面的主题相关性；最后利用可根据主题相关性调整采集顺序的主题信息采集系统进行信息采集。

根据本发明一个实施例，整个采集系统框架的运行机制如图1所示，具体包括下列3步：

1)设置初始采集链接集合(Seed)，并添加到待采集链接队列(Queue)。

2)多线程采集器(MTD，Multi-threaded downloader)从待采集链接队列(Queue)中根据待采集链接的顺序获得多个链接，并从互联网(WEB)中采集这些链接的页面的内容，提取该页面中的新链接，MTD根据下述方法分析该页面，提取该页面的相关链接集合，并判定该页面的主题相关性。其中所述多个链接一般占Queue中所有链接的10％至30％。把页面的内容、该页面的主题相关性和该页面的相关链接集合信息存储到存储信息库(Storage)中，将所述新链接添加到Queue中。

其中，提取该页面的相关链接集合是对HTML页面的建立DOM树模型，从DOM树模型中抽取极大并列子树族，进而提取互联网页面中相关链接集合。

利用开源工具HTML Parser对页面的HTML文本内容完成DOM树模型的构建。由于页面采集过程只涉及到HTML文本中的链接信息，因此，优选的可以将HTML文本中非链接型叶子节点从DOM树中进行删除，从而完成对DOM数的压缩。首先找到DOM树中的一个非链接型叶子节点，如果找不到，则结束；否则删除该节点，并重复上述操作直到结束。

定义Tree(p)描述一棵以节点p为根的树，cn(p)表示p的儿子节点的个数，child₁(p)，child₂(p)，..，child_cn(p)(p)分别表示p的cn(p)个儿子节点；

对于一个节点p而言，它的所有儿子节点是有序的，序列的顺序即节点所对应的HTML文本在原始页面中的上下文关系；

称Tree(p)与Tree(q)具有相同的结构，当且仅当节点p和节点q均为叶子节点时，或者节点p和节点q均为非叶子节点时，cn(p)＝cn(q)，且对于

1≤i≤cn(p)，child_i(p)和child_i(q)也具有相同的结构；

如果对于一个节点p，它有两个或两个以上的叶子节点，且任意两个叶子节点child_i(p)和child_j(p)所构成的子树Tree(child_i(p))和Tree(child_j(p))都具有相同结构，则称Tree(child₁(p))，Tree(child₁(p))，...，Tree(child_cn(p)(p))构成了以节点p为根节点的并列子树族。Tree(p₁)，Tree(p₂)，...，Tree(p_n)构成以root为根节点的一个极大并列子树族T，当且仅当不存在并列子树族T′＝{Tree(q₁)，Tree(q₂)，...，Tree(q_m)}，它满足j，1≤i≤n，1≤j≤m，使得q_j是p_i的祖先。

Tree(p₁)，Tree(p₂)，...，Tree(p_n)构成一个以root为根节点并列子树族T，假设这n棵树中每一棵树都包含有m+1个节点，定义对于

1≤i≤n，Q(p_i)＝{r_i，0，r_i，1，...，r_i，m}表示Tree(p_i)的前序遍历结果，树的前序、后序或者中序遍历结果都是唯一的，在前序遍历结果中显然r_i，0＝p_i。定义

0≤j≤m，R＝{r_1，j，r_2，j，...，r_n，j}被称为并列子树族T的一个并列节点集合。如图2所示，其中填充图案相同的节点为并列叶子节点。

任何两个极大并列子树族都是不相交的。如果两个极大并列子树族T＝{Tree(p₁)，Tree(p₂)，...，Tree(p_n)}，它们的共同父亲是p₀，以及T′＝{Tree(q₁)，Tree(q₂)，...，Tree(q_m)}，它们的共同父亲是q₀，且有q₀≠p₀；假设T和T’相交，那么必然存在一个节点r，使得q₀和p₀都是r的祖先，根据树的性质有要么q₀是p₀的祖先、要么p₀是q₀的祖先，这与T和T’是极大子树族矛盾，所以任何两个极大并列子树族都是不相交的。

根据以上描述，从DOM树中提取极大并列子树族的步骤如下：

A.置并列子树族集合

置栈

将DOM树的根节点root添加到栈中；

B.如果

转至步骤F；否则取出ST的栈顶元素p；

C.如果p是一个叶子节点，返回步骤B，否则进行步骤D；

D.如果p只有一个儿子节点q，将q添加到栈ST当中，返回步骤B，否则进行步骤E；

E.判断T＝{Tree(child_i(p))|i＝1...cn(p)}是否构成了以p为根节点的并列子树族，如果是，则将T添加到S当中，否则以此将child₁(p)，child₂(p)，...，child_cn(p)(p)添加到栈ST当中，转至步骤B；

F.集合S即为所求集合。

上述极大并列子树族的提取方法和树遍历算法的时间复杂度是一样的，都是O(n)。

获取每一极大并列子树族的每一个由叶子节点构成的并列节点集合，则每个集合构成该DOM树描述的HTML页面中的一个相关链接集合。

互联网页面的主题相关性是指某页面确实是与主题相关，或者某页面所指向的页面都具有很高的主题相关性。可以理解这个定义是递归的。

用f(l)表示链接l所指向的页面的主题相关性，也就是链接l所指向页面的主题相关程度，f(l)∈[0，1]，f(l)越大链接l的主题相关性越大，f(l)越小链接l的主题相关性越小。用P(l)表示链接l所指向的页面；用outlinks(P(l))表示页面P(l)中的所有链接。一个页面P(l)可能拥有若干个相关链接集合。这里用链接集合related₁(P(l))，related₂(P(l))，...，related_s(P(l))表示页面P(l)的s个相关链接集合，显然有：

\cup_{i = 1}^{s} {related}_{i} (P (l)) &SubsetEqual; outlinks (P (l))

本领域技术人员可以理解，一个链接可能存在于多个相关链接集合当中。

用F表示目前已经采集到的页面集合，R表示已经采集到的确实主题相关的页面所组成的集合，显然有

R &SubsetEqual; F .

例如，主题为视频，R表示已经采集到的含有视频的页面所组成的集合。N表示目前待采集的页面集合，定义集合Q(l)＝{v|l∈outlinks(P(v))，P(v)∈F}表示链接l出现过的页面。

对于已经采集到的页面，从互联网中获得HTML页面内容，可以得到大量的页面特征信息，一般可利用文本分类以及其它相关技术进行主题相关性判断，确定该页面是否确实主题相关。也即：

对于P(l)∈R的情况，f(l)＝1 (1)

3)采集调度器(Scheduler)，每隔一段时间以后将会根据Storage中存储的相关链接集合信息和如上所述的已经采集到的页面的主题相关性，计算Queue中所有链接的页面的主题相关性，并调整Queue中链接的采集顺序，然后重复执行步骤2)。

如果一个页面它所指向的页面大多数都是与主题相关的话，则称该页面在面向主题的信息采集中是一个好的发散型(Hub)页面。因为绝大多数的互联网页面中，主题相关的页面总是并列出现的；所以在同一个页面中的一个相关链接集合中的若干个链接所指向的页面具有很高的主题相关性的话，那么该集合中其余的链接指向的页面也具有很高的相关性。

根据上述原理，对于已经采集的，但非确实主题相关的页面，根据所述非确实主题相关的页面中的新链接的个数，以及所述非确实主题相关的页面中的新链接的页面的主题相关性，计算所述非确实主题相关的页面的主题相关性：

对于P(l)∈F，且

P (l) &NotElement; R

的情况，

f (l) = \frac{\underset{u &Element; outlinks (P (l))}{Σ} f (u)}{| outlinks (P (l)) |} - - - (2)

其中，符号||表示计算集合中元素个数。

对于目前待采集的页面集合，根据所述新链接所在的相关链接集合内的链接的平均主题相关性，以及所述新链接所在的链接的个数，计算所述新链接的页面的主题相关性：对于P(l)∈N时情况，

g (l, u) = \frac{Σ_{k = 1}^{s} \frac{\underset{u, u &Element; {related}_{k} (P (u)), u &NotEqual; l}{Σ} f (u)}{| {related}_{k} (P (u)) | - 1} \cdot w (l, u, k)}{Σ_{k = 1}^{s} (| {related}_{k} (P (u)) | - 1) \cdot w (l, u, k)},

其中，

w (l, u, k) = \{\begin{matrix} 0 & l &Element; {related}_{k} (P (u)) \\ 1 & l &NotElement; {related}_{k} (P (u)) \end{matrix}, - - - (3)

f (l) = \frac{\underset{u, u &Element; Q (l)}{Σ} g (l, u)}{| Q (l) |}

根据上述方程(1)、(2)和(3)对f(l)进行计算。类似于一种基于拓扑关系的页面重要程度评分(Page Rank)的计算方式，可以采用雅各比(Jacobi)迭代法与高斯—塞德尔(Gauss-Seidel)迭代法对f(l)进行求解。为了控制迭代过程的计算消耗，通过实验论证，优选的，采用的迭代次数为8至12次。

根据页面的主题相关性，调整添加了新链接的待采集链接队列中的链接的顺序，重复执行上述步骤2)和步骤3)直到Queue中链接为空时结束。本领域技术人员可以理解，也可以自行设置采集页面数量的上限阈值，达到这个阈值以后，自动结束并退出采集程序。

综上所述，根据本发明的一个具体实施例，提供了一种面向主题的信息采集系统，包括：

待采集链接队列，用于存储链接；

多线程采集器，用于根据链接的顺序，从待采集链接队列中获得多个链接，并从互联网中采集该多个链接的页面的内容并存储至存储信息库，提取该页面中的新链接，判定该页面的主题相关性，提取该页面的相关链接集合，并存储该页面的主题相关性和该页面的相关链接集合到存储信息库，将新链接添加到上述待采集链接队列；

采集调度器，用于根据该页面的相关链接集合和页面的主题相关性，计算上述待采集链接队列中所有链接的页面的主题相关性，并调整所述待采集链接队列中链接的顺序。

在该系统中，多线程采集器包括提取相关链接集合装置，用于提取页面的相关链接集合，该提取相关链接集合装置进一步包括：

用于根据页面内容，构建页面的DOM树的装置；和

用于提取该DOM树的极大并列子树族，由该极大并列子树族的并列节点集合构成页面的相关链接集合的装置。

在该系统中，采集调度器包括用于计算所有链接的页面的主题相关性的装置，所述用于计算所有链接的页面的主题相关性的装置包括：

计算非确实主题相关的页面的主题相关性的装置，其用于对于已经采集的，但非确实主题相关的页面，根据该非确实主题相关的页面中的新链接的个数，以及该非确实主题相关的页面中的新链接的页面的主题相关性，计算该非确实主题相关的页面的主题相关性；

计算新链接的页面的主题相关性的装置，其用于对于新链接所指向的页面，根据该新链接所在的相关链接集合内的链接的平均主题相关性，以及该新链接所在的链接的个数，计算该新链接的页面的主题相关性。

应该注意到并理解，在不脱离后附的权利要求所要求的本发明的精神和范围的情况下，能够对上述详细描述的本发明做出各种修改和改进。因此，要求保护的技术方案的范围不受所给出的任何特定示范教导的限制。

Claims

1.一种面向主题的信息采集方法，包括下列步骤:

2.根据权利要求1所述的方法，其特征在于，所述步骤1)中的所述提取所述页面的相关链接集合包括下列步骤:

11)根据所述页面内容，构建所述页面的DOM树；

3.根据权利要求2所述的方法，其特征在于，所述步骤11)是利用开源工具HTML Parser完成。

4.根据权利要求2所述的方法，其特征在于，所述步骤11)还包括:

111)删除所述DOM树中的非链接型叶子节点。

5.根据权利要求2所述的方法，其特征在于，所述步骤12)所述提取所述DOM树的极大并列子树族包括:

A.置并列子树族集合

，置栈

，将所述DOM树的根节点root添加到栈中；

B.如果

，则集合S即为所求集合，否则取出ST的栈顶元素p；

C.如果p是一个叶子节点，返回步骤B；

6.根据权利要求1所述的方法，其特征在于，所述步骤1)所述判定所述页面的主题相关性采用文本分类方法。

7.根据权利要求1所述的方法，其特征在于，所述步骤2)所述根据所述页面的相关链接集合和所述页面的主题相关性，计算所有链接的页面的主题相关性，包括:

8.根据权利要求7所述的方法，其特征在于，所述步骤21)和所述步骤22)根据雅各比迭代法和高斯—塞德尔迭代法进行计算。

9.根据权利要求8所述的方法，其特征在于，所述雅各比迭代法和高斯—塞德尔迭代法进行8至12次迭代。

10.一种面向主题的信息采集系统，包括:

待采集链接队列，用于存储链接；

11.根据权利要求10所述的系统，其特征在于，所述多线程采集器包括提取相关链接集合装置，用于提取所述页面的相关链接集合，所述提取相关链接集合装置进一步包括:

用于根据所述页面内容，构建所述页面的DOM树的装置；和

12.根据权利要求10所述的系统，其特征在于，所述采集调度器包括用于计算所有链接的页面的主题相关性的装置，所述用于计算所有链接的页面的主题相关性的装置包括: