CN1786947A

CN1786947A - 基于网页页面布局提取网页核心内容的系统、方法和程序

Info

Publication number: CN1786947A
Application number: CN 200410100059
Authority: CN
Inventors: 马立; 苏中; 刘世霞; 潘越
Original assignee: International Business Machines Corp
Current assignee: IBM China Co Ltd
Priority date: 2004-12-07
Filing date: 2004-12-07
Publication date: 2006-06-14
Anticipated expiration: 2024-12-07
Also published as: CN100432996C

Abstract

提供一种提取网页的核心内容的网页核心内容提取系统和方法，该系统接收HTML文档(网页)并从其中提取核心内容，所述系统包括：文本块分析器，用于以HTML标记作为定界符将输入的HTML文档中的每个有用基本结构中的文本片断分段为一个或多个独立的文本块，并将出现在每个有用基本结构中的所有文本块依次连接起来作为输出，其中所述有用基本结构为包含网页核心内容的基本结构；以及文本块检查器，用于从文本块分析器依次输出的所述文本块中去除不含网页的核心内容的文本块并输出余下的文本块作为网页核心内容。通过针对每个文本块确定是否含有广告和导航信息，从而能够精确地确定网页中包括的核心内容。本发明还提高了处理效率。

Description

基于网页页面布局提取网页核心内容的系统、方法和程序

技术领域

总的来说，本发明涉及提取网页核心内容的系统及其方法以及实现该方法的计算机程序产品。具体地说，本发明涉及利用网页页面布局提取网页核心内容的系统及其方法以及实现该方法的计算机程序产品。

背景技术

随着万维网(World Wide Web)的迅速增长，它已经成为许多领域的最大信息来源。如何有效而且自动地提取因特网上的信息是知识管理领域最为活跃的课题之一。为了方便用户阅读和浏览因特网上的信息，目前一般将这种信息以超文本标记语言(HTML)文件形式呈现给用户。HTML文件不仅包括用户所关心的信息(被称为网页的核心内容)，而且还包括标准HTML标记集、大量广告和导航信息。HTML格式的信息一般不能被大多数自然语言处理方法直接使用。因此，在进行万维网文档处理和分析时，去除万维网文档中的导航信息和广告并且仅仅保留网页的核心内容是关键的步骤。

图1示意性地了示出万维网信息管理系统的方框图。参考图1，所述万维网信息管理系统包括：网页内容提取器110，用于从网页集中提取有用的纯文本和数据表；信息处理部分120，用于将所提取的内容(即，文本片断和数据表)进行进一步处理，以便于知识发现、文档分类、聚类、摘要等等；图形用户界面(GUI)130，用于方便用户访问和管理因特网上的信息；以及储存库140，用于存储信息管理系统在进行处理时所涉及的数据，例如，要处理的网页数据、所提取的内容等。

在这样的系统中，网页内容提取器110扮演了一个重要角色。显然，如果网页内容提取器110所提取的内容不完整或包含许多广告、导航信息等内容，那么随后的信息处理部分120的精确度必定会降低，因而会严重影响整个系统的性能。为了避免发生这种情况，需要一种高性能的内容提取器。

在网页内容提取器110中用于提取网页核心内容的现有方法可以根据它们与网页结构的依赖性，大致分成两个主要的类别：结构相关的方法和结构无关的方法。以下分别简单地介绍这两类方法。

结构相关的方法

这类方法公开在以下参考文献中：

[1]Sahuguet F.Azavant，Building intelligent web applications usinglightweight wrappers(利用网页内容提取器建造智能万维网应用)，Data &Knowledge Engineering(数据与知识工程)36(3)：283-316，2001年；

[2]D.Freitag，Information extraction from HTML：Application of ageneral learning approach(从HTML文件中提取信息：通用学习途径的应用)，Proceedings of the Fifteenth Conference on Artificial Intelligence(第十五届人工智能会议论文集)，第517-523页，1998年；

[3]R.Baumgartner，S.Flesca和G.Gottlob，Visual web informationextraction with lixto(Lixto：可视化网页内容提取器)，Proceedings of 27thInternational Conference on Very Large Data Bases(第二十七届超大规模数据库国际会议论文集)，第119-128页，2001年；以及

[4]B.Adelberg，NoDoSE：A tool for semi-automatically extractingsemi-structured data from text documents(NoDoSE从文本文档半自动地提取半结构化数据的工具)，In Proc.Intl.Conference on Management ofData(在数据管理智能会议论文集)，第283-294页，1998年。

这些方法只能够处理具有固定网页页面布局的、一般来自于同一网址或一个网址的同一频道(例如，Yahoo.com的教育频道)的网页。它们首先将HTML文档解析成DOM(文档对象模型)树，这种树使得访问和处理HTML文档更容易。然后，通过分析包括用户手动标注的文本片断的子树结构，产生全局或局部路径表达式(诸如著名的XPath)(参见[1，3])或某些关系规则(relation rules)(参见[2，4])。路径表达式和关系规则能够处理其结构与训练文档几乎相同的网页。这些方法的缺点是需要对训练文档进行手工标注并且依赖于网页结构，其限制了它们的适用范围。有证据表明，这种方法不适合于完全自动的万维网管理信息系统。

结构无关的方法

这类方法不考虑网页的任何结构信息。一些这类方法只能删除HTML标记并且保留包括广告和其它不相关的信息在内的所有文本片断。典型的实例包括微软的因特网资源管理器(Microsoft InternetExplorer)的“save as*.txt”(另存为*.txt)功能和IBM Web Fountain的去除方法(Detag Miner，http：//diva.almaden.ibm.com/wf/components/miners/Detag/)。另一些方法基于几个特定的定界符(即HTML标记)，将HTML文档划分为多个文本块(text chunk)，并确定文本块的超链接比例来决定是否保留该文本块为输出。这种方法基于广告和导航信息通常表示为超链接的事实。典型的实例是IBM Web Fountain的模板去除方法(Template Removal Miner，http：//diva.almaden.ibm.com/wf/components/miners/TemplateRemoval/)。因此，具有大的链接文本与非链接文本的长度比例的文本块被认为不包括核心内容。然而很不幸，这样的处理不是很有效。因为这些方法只是基于一组简单的直观推断，因此所提取的核心内容常常包含一些不相关的信息。

根据上述分析可以看出，提取网页的核心内容的现有方法要么依赖于网页的特有结构，要么所提取的网页核心内容不能令人满意。

发明内容

基于上述原因，本发明提出了一种基于网页页面布局分析的(layout)提取网页核心内容的系统及其方法，以及实现该方法的计算机程序产品。该系统及其方法通过找出网页中可能含有核心内容的项，并且去除这些项中的广告和导航信息项，从而获得核心内容。

为了实现本发明的上述和其它目的，提供一种提取网页的核心内容的网页核心内容提取系统，该系统接收HTML文档并从其中提取核心内容，包括：文本块分析器，用于通过HTML标记作为定界符将输入的HTML文档中的每个有用基本结构中的文本片断分段为一个或多个独立的文本块，并将出现在每个有用基本结构中的所有文本块依次连接起来作为输出，其中所述有用基本结构为可能包含网页核心内容的基本结构；以及文本块检查器，用于从文本块分析器输出的所述文本块中去除不含网页的核心内容的文本块并依次输出余下的文本块作为网页核心内容。

根据本发明的一个实施例，所述文本块分析器识别的定界符为<p>、<div>、<br>、<li>、<hr>和<pre>。

根据本发明的一个实施例，所述文本块检查器基于一广告、导航和版权典型词词典，检查所接收到的文本块中是否存在预定数量的广告、导航或版权词汇，如果一个文本块包含预定数量的广告、导航或版权词汇，则将该文本块从所接收到的数据中去除。

根据本发明的一个实施例，所述网页核心内容提取系统还包括：长度直方图构造和分析部分，其构造关于输入的HTML文档的长度直方图，基于所述长度直方图提取网页中存在的真实数据表，将输入的HTML文档中提取了所述真实数据表后余下的部分提供给所述文本块分析器进行分析；以及核心内容组合部分，将长度直方图构造和分析部分所提取的所述真实数据表与所述文本块检查器输出的文本块组合起来作为整体输出，其中，所述长度直方图为x轴表示所述HTML文档中的基本结构的文本长度、y轴表示HTML文档中、具有一定长度的基本结构的数量的图表。

根据本发明的一个实施例，所述长度直方图构造和分析部分包括长度直方图构造部分，所述长度直方图构造部分将基本结构的文本中的制表符、空格符、回车/换行符过滤掉，然后再计算各基本结构的文本长度并计数各种文本长度的基本结构的个数，以构造长度直方图。

根据本发明的一个实施例，其中，所述长度直方图构造部分还对于每一个基本结构计算其链接和其文本长度的比率(链接文本的长度/文本长度)，并将所计算出的每个文本长度和链接比率与预定阈值比较，针对链接比率低于所述阈值的基本结构构造长度直方图。

根据本发明的一个实施例，其中，所述阈值为0.8。

根据本发明的一个实施例，所述网页核心内容提取系统还包括：基本结构树创建部分，用于顺序地扫描输入的HTML文档，找出其中所有的<Table>标记、<Th>标记和<Td>标记，并记录这些标记之间的包含关系，以便创建网页的基本结构树，其中所述基本结构树以网页作为树根，其奇数层节点只表示网页中的表结构，而偶数层节点只表示网页中的基本结构，其中下一层节点所表示的结构一定出现在上一层节点所表示的结构的定界符之内，并利用二维索引坐标(t1，t2)为所述基本结构树创建部分以先序方式序遍历表结构并以后序方式遍历基本结构的方法对基本结构编号，t1表示基本结构的直接父辈的索引，而t2表示其本身的索引，以便于定位各基本结构在HTML文档中的位置，其中，如果所建立的基本结构树是空树，则将网页直接输出到文本块分析器。

根据本发明的一个实施例，所述长度直方图构造和分析部分还包括真实数据表判决部分，用于根据所述直方图确定HTML文档中的真实数据表。

根据本发明的一个实施例，所述真实数据表判决部分根据下列条件来确定真实数据表结构：所述长度直方图构造和分析部分包括真实数据表判决部分，用于根据下列条件：1)以其为树根的子树仅仅包括不是表结构的基本结构；2)其中的基本结构的平均文本长度小于一个预定阈值；3)其中的基本结构的数目大于一个预定阈值；以及4)其中不存在任何图像链接，来确定真实数据表结构，并且长度直方图构造和分析部分将网页中的真实数据表作为核心内容文本输出。

根据本发明的一个实施例，所述真实数据表判决部分使用基于统计特征学习的方法来确定真实数据表结构。

根据本发明的一个实施例，所述长度直方图构造和分析部分还包括长度直方图分析部分，用于根据所述直方图将文本长度大于一阈值的基本结构确定为核心内容中心结构。

根据本发明的一个实施例，所述阈值为300。

根据本发明的一个实施例，所述网页核心内容提取系统，还包括：有用基本结构选择器，其连接在长度直方图构造和分析部分和所述文本块分析器之间，基于从长度直方图中找出的核心内容中心结构和包括最长文本片段的基本结构(T1，T2)，选择满足下列公式

|t₁-T₁|≤S₁

|t₂-T₂|≤S₂的所有基本结构(t1，t2)作为包含核心内容的有用基本结构输出到所述文本块分析器，其中S1和S2是两个预定阈值，二维索引坐标(t1，t2)为所述基本结构树创建部分以先序方式序遍历表结构并以后序方式遍历基本结构的方法对基本结构编号，t1表示基本结构的直接父辈的索引，而t2表示其本身的索引。

根据本发明的一个实施例，所述文本块检查器检查所接收到的每个所述核心内容中心结构以及与该核心内容中心结构相邻的所有有用基本结构的所有文本块中的至少头一个文本块和最后一个文本块。

根据本发明的一个实施例，所述网页核心内容提取系统还包括：有用基本结构直接获得部分，连接到基本结构树创建部分，当输入的网页存在保存于一知识数据库中的最大公共子树时，基于该知识数据库中的最大公共子树、有用基本结构在公共子树中的位置和所有公共文本片断信息，直接确定有用基本结构作为网页核心内容输出，其中，所述知识数据库是从具有与所检查的网页相同或相近的页面布局的网页中获得的最大公共子树、有用基本结构在公共子树中的位置和所有公共文本片断所构成的数据库。

根据本发明的一个实施例，所述文本块检查器通过计算知识数据库中的公共文本片断和每个有用基本结构的公共文本片断之间的相似性来确定文本块含有广告和导航信息，并去除包含广告和导航信息的文本块，其中，所述知识数据库是从具有与所检查的网页相同或相近的页面布局的网页中获得的最大公共子树、有用基本结构在公共子树中的位置和所有公共文本片断所构成的数据库。

根据本发明的一个实施例，所述网页核心内容提取系统，还包括：知识数据库创建单元，用于从要处理的网页集合中选取训练文件并利用基本结构树创建部分创建其基本结构树，找出所有所创建的基本结构树中的最大公共子树，确定所述最大公共子树中的有用基本结构的位置，并获得出现在所有训练文档中的公共文本片断，然后将所获得的最大公共子树、有用基本结构在公共子树中的位置和所有公共文本片断创建知识数据库。

为了实现本发明的上述和其它目的，还提供一种提取网页的核心内容的网页核心内容提取方法，该方法处理HTML文档以从其中提取核心内容，所述方法包括：文本块分析步骤，用于通过HTML标记作为定界符将输入的HTML文档中的每个有用基本结构中的文本片断分段为一个或多个独立的文本块，并将出现在每个有用基本结构中的所有文本块依次连接起来作为输出，其中所述有用基本结构为可能包含网页核心内容的基本结构；以及文本块检查步骤，用于从作为输出的所述文本块中去除不含网页的核心内容的文本块并依次输出余下的文本块作为网页核心内容。

根据本发明的一个实施例，所述文本块分析步骤使用的定界符为<p>、<div>、<br>、<li>、<hr>和<pre>。

根据本发明的一个实施例，所述文本块检查步骤基于一广告、导航和版权典型词词典，检查所接收到的文本块中是否存在预定数量的广告、导航或版权词汇，如果一个文本块包含预定数量的广告、导航或版权词汇，则将该文本块从所接收到的数据中去除。

根据本发明的一个实施例，所述网页核心内容提取方法，还包括：长度直方图构造和分析步骤，其构造关于输入的HTML文档的长度直方图，基于所述长度直方图提取网页中存在的真实数据表作为网页核心内容，并去除所述真实数据表后余下的部分提供给所述文本块分析步骤进行分析；以及核心内容组合步骤，将所提取的所述真实数据表与所述文本块检查步骤输出的文本块组合起来作为整体输出，其中，所述长度直方图为x轴表示所述HTML文档中的基本结构的文本长度、y轴表示HTML文档中、具有一定长度的基本结构的数量的图表。

根据本发明的一个实施例，在计算基本结构的文本长度时，排除制表符、空格符、回车/换行符的数量。

根据本发明的一个实施例，所述长度直方图构造和分析步骤对于每一个基本结构计算其链接和其文本长度的比率(链接文本的长度/文本长度)，并将所计算出的每个文本长度和链接比率与预定阈值比较，针对链接比率低于所述阈值的基本结构构造长度直方图。

根据本发明的一个实施例，所述阈值为0.8。

根据本发明的一个实施例，所述网页核心内容提取方法，还包括：基本结构树创建步骤，用于顺序地扫描输入的HTML文档，找出其中所有的<Table>标记、<Th>标记和<Td>标记，并记录这些标记之间的包含关系，以便创建网页的基本结构树，其中所述基本结构树以网页作为树根，其奇数层节点只表示网页中的表结构，而偶数层节点只表示网页中的表头和基本结构，其中下一层节点所表示的结构一定出现在上一层节点所表示的结构的定界符之内；利用二维索引坐标(t1，t2)以先序方式遍历树并以后序方式遍历基本结构的方法对基本结构编号的步骤，t1表示基本结构的直接父辈的索引，而t2表示其本身的索引，以便于定位各基本结构在HTML文档中的位置；以及将空的基本结构树输出直接到文本块分析步骤的步骤。

根据本发明的一个实施例，所述长度直方图构造和分析步骤包括真实数据表判决步骤，用于根据所述直方图确定HTML文档中的真实数据表。

根据本发明的一个实施例，所述真实数据表判决步骤根据下列条件来确定真实数据表结构：1)以其为树根的子树仅仅包括不是表结构的基本结构；2)其中的基本结构的平均文本长度小于一个预定阈值；3)其中的基本结构的数目大于一个预定阈值；以及4)其中不存在任何图像链接，来确定真实数据表结构；以及将真实数据表作为核心内容文本输出的步骤。

根据本发明的一个实施例，所述真实数据表判决步骤使用基于统计特征学习的方法来确定真实数据表结构。

根据本发明的一个实施例，所述长度直方图构造和分析步骤还根据所述直方图将文本长度大于一阈值的基本结构确定为有用基本结构。

根据本发明的一个实施例，所述阈值为300。

根据本发明的一个实施例，所述网页核心内容提取方法还包括：有用基本结构选择步骤，基于从长度直方图中找出的核心内容中心结构和包括最长文本片段的基本结构(T1，T2)，选择满足下列公式

|t₁-T₁|≤S₁

|t₂-T₂|≤S₂的所有基本结构(t1，t2)作为包含核心内容的有用基本结构输出到所述文本块分析步骤，其中S1和S2是两个预定阈值。

根据本发明的一个实施例，所述文本块检查步骤检查所接收到的每个所述核心内容中心结构以及与该核心内容中心结构相邻的所有有用基本结构的所有文本块中的至少头一个文本块和最后一个文本块。

根据本发明的一个实施例，所述网页核心内容提取方法还包括：有用基本结构直接获得步骤，当输入的网页存在最大公共子树时，用于基于一知识数据库中的最大公共子树、有用基本结构在公共子树中的位置和所有公共文本片断信息，直接确定有用基本结构作为网页核心内容输出，其中，所述知识数据库是从具有与所检查的网页相同或相近的页面布局的网页中获得的最大公共子树、有用基本结构在公共子树中的位置和所有公共文本片断所构成的数据库。

根据本发明的一个实施例，所述文本块检查步骤通过计算知识数据库中的公共文本片断和每个有用基本结构的公共文本片断之间的相似性来确定文本块含有广告和导航信息，并去除包含广告和导航信息的文本块，其中，所述知识数据库是从具有与所检查的网页相同或相近的页面布局的网页中获得的最大公共子树、有用基本结构在公共子树中的位置和所有公共文本片断所构成的数据库。

根据本发明的一个实施例，所述网页核心内容提取方法还包括：从要处理的网页集合中选取训练文文件并创建其基本结构树的步骤；找出所有所创建的基本结构树中的最大公共子树，确定所述最大公共子树中的有用基本结构的位置，并获得出现在所有训练文档中的公共文本片断的步骤，以及将所获得的最大公共子树、有用基本结构在公共子树中的位置和所有公共文本片断创建知识数据库的步骤。

为了实现本发明的上述和其它目的，还提供一种计算机程序，包含用来执行上述方法的步骤的程序代码，其中所述程序运行在计算机上。

为了实现本发明的上述和其它目的，还提供一种存储在计算机可用介质上的计算机程序产品，包含用来使计算机执行上述方法的计算机可读程序。

通过上述系统和方法，可以避免将广告和导航信息项与核心内容项混淆，从而提高提取网页中的核心内容的精度。并且由于可以直接提取具有相似结构的网页的核心内容，因此，对这类网页处理效率很高。

附图说明

本发明的上述以及其它特征与优点见从下面对本发明优选实施例的更具体的描述中将会显而易见，这些优选实施例如附图中所示，其中

图1示意性地示出万维网信息管理系统的方框图。

图2a示出使用与表相关标记实现的网页页面布局的示意图；

图2b示出对应于图2a中所示的网页页面布局的、根据本发明的基本结构树；

图3示出根据本发明的基于网页页面布局提取网页的核心内容的方法的概括性流程图；

图4示出根据本发明的、基于网页页面布局提取网页的核心内容的网页核心内容提取系统的框图；

图5示出了根据本发明的、图4所示的网页核心内容提取系统中的长度直方图构造和分析部分的框图；

图6a示出了根据本发明的、HTML文档的长度直方图；

图6b示出了根据本发明的、另一个HTML文档的长度直方图；

图7是图解在基本结构树中定位基本结构的视图；

图8示出根据本发明的、基于网页页面布局提取网页的核心内容的网页核心内容提取方法的流程图。

图9示出了根据本发明的另一优选实施例的、用于提取特殊结构的一组网页的核心内容的网页核心内容提取系统的框图。

图10示出根据本发明的优选实施例的、用于提取特殊结构的网页集中的网页核心内容的网页集核心内容提取方法的流程图，其中，图10a示出建立根据本发明的优选实施例的知识数据库的流程图，图10b示出基于所建知识库提取核心内容的方法的流程图；

图11a示出要分别利用根据本发明的网页核心内容提取方法和一种传统网页核心内容提取方法提取其核心内容的网页；

图11b图示根据所述传统网页核心内容提取方法所提取的网页核心内容的视图；

图11c图示根据发明的网页核心内容提取方法所提取的网页核心内容的视图；

图12a示出要分别利用根据本发明的网页核心内容提取方法和一种传统网页核心内容提取方法提取其核心内容的另一网页；

图12b图示根据所述传统网页核心内容提取方法所提取的所述另一网页核心内容的视图；以及

图12c图示根据发明的网页核心内容提取方法所提取的所述另一网页核心内容的视图。

具体实施方式

在以下对根据本发明的具体实施方式的具体描述中，使用了一些术语。为了便于理解本申请所公开的内容，在这里将这些术语集中解释如下：

1)与表相关标记

“与表相关标记”(HTML标记)包括<Table>、<TBody>、<TFoot>、<Tr>、<Th>和<Td>等，其中<Table>用于创建数据表，<TBody>用于表示表的本体，<TFoot>用于表示表的脚注，<Tr>用于表示表的数据行，<Th>用于限定表头，而<Td>用于创建数据结构。

2)基本结构

“基本结构”指的是包括在HTML标记对<Td>和</Td>，或HTML标记对<Th>和</Th>之内的信息项。这里所说的信息项可以是图像、文本/图像链接、纯文本、表结构等。一个基本结构中可以嵌套下一层基本结构。

3)表结构

“表结构”由一些基本结构和表结构组成，其开始于HTML文档中的标记<Table>，而结束于HTML文档中的标记</Table>。需要注意的是，表结构中可以包括表结构，而且还可以用表结构或其它信息项一起来构成基本结构。

4)基本结构树

“基本结构树”是以基本结构和表结构作为节点的一种树图。一个基本结构树以网页(HTML文档)作为树根，以网页中的表结构、表头和数据结构之类的基本结构作为树叶节点。该树图的奇数层节点只表示表结构，而偶数层节点只表示基本结构，其中下一层节点所表示的结构一定出现在上一层节点所表示的结构之内(即，上一层节点所表示的结构的定界符之内)。这样的树图事实上刻画了网页的页面布局。

图2a示出了利用与表相关标记实现网页页面布局的网页的简化实例，而图2b示出了对应于图2a所示的网页页面布局的基本结构树。在图2中，附图标记T1、T2和T3指示的是表结构，Th1指示的是表结构T1的表头，而附图标记Td1、Td2、Td3指示的是基本结构。

4)最大公共子树

最大公共子树是指在给定的树集合中，出现在集合的所有树中、节点最多最深的子树。在根据本发明的一个优选实施方式，最大公共子树是指在两颗基本结构树中结构完全相同的公共子树，该子树至少包含两层，且包含的节点个数在所有的公共子树中是最多的。

以下借助于上述技术术语描述根据本发明的具体实施方式。

本发明的发明人注意到，实现网页页面布局(即，如何在网页中组织诸如文本和图像之类的各种信息项)的方法可以划分为两类：

1)使用与表相关标记来实现网页页面布局(即，定位信息项)，这些标记原本用于显示真实数据。如上所述，与表相关标记是一些HTML标记，包括<Table>、<TBody>、<TFoot>、<Tr>、<Th>和<Td>等，其中<Table>用于创建数据表，<TBody>用于表示表的本体，<TFoot>用于表示表的脚注，<Tr>用于表示表的数据行，<Th>用于限定表头，而<Td>用于创建数据结构。

图2a示出了利用与表相关标记实现网页页面布局的网页的简化实例。需要说明的是，几乎所有网页都是使用与表相关标记来实现网页页面布局。

2)不使用与表相关标记来实现网页页面布局。对于不利用与表相关标记实现网页页面布局的网页来说，其网页页面布局一般具有相对简单的形式，并且这样的网页只包含非常少的广告信息。

当使用HTML标记来创建网页时，创建者依据一组HTML标记来组织人能够查看的信息，特别地，依据一组与表相关标记进行网页页面布局，这与我们对各种网页的深入观察是一致的。然而，HTML标记中没有任何一种标记能够精确地定位核心内容项，也就是说，广告、核心内容和导航信息等信息项都必须利用<Table>、<Th>和<Td>等标记来定位在网页的适当位置。以图2a为例，每个诸如文本片断和图像之类的信息项都利用<Table>、<Th>和<Td>标记定位在适当的位置。更重要的是，广告、核心内容和导航信息分别定位在不同的基本结构中。毫无疑问，如果能够找到核心内容所在的基本结构项，并且正确地鉴别出这些基本结构项中含有广告和导航信息的信息项，则实际上也就获得了核心内容。

基于上述分析，本发明的发明人提出了提取网页的核心内容的方法。图3示出根据本发明的基于网页页面布局提取网页的核心内容的方法的概括性流程图。参考图3，在步骤S310，接收要进行核心内容提取的网页(HTML文档)，然后将处理转移到步骤S320。在步骤S320，对所接收到的网页进行网页布局分析，以便例如找出网页中所包含的基本信息结构(即基本结构)、根据所找到的基本结构创建对应于所接收到的网页的基本结构树。图2示出了网页文档与基本结构树之间的对应关系。在步骤S320，还根据所创建的基本结构树分析网页信息项的分布情况，这种情况可以例如通过构造所谓的长度直方图图示出来，所述长度直方图及其创建方法将在下文中详细描述。步骤S320中的分析应该能够从输入的HTML文档中去除明显的广告、导航等信息结构，也应该能够识别出明显包含核心内容的信息结构。

接下来，在步骤S330根据上述分析结果，从网页删除含有广告和导航信息的基本结构，从而获得网页中那些有可能包含网页核心内容的基本结构(在下文中，将可能包含网页核心内容的基本结构称为有用基本结构)。在这里，基于网页的核心内容一般位于网页中的几个相邻的基本结构的实际情况，来进行有用基本结构的选择。此外，步骤S330还将有用基本结构尽可能地分段成长度较短的文本块。

接下来，在步骤S340，进一步分析各有用基本结构中的文本片断以去除其中含有广告和导航信息的文本片断，并将所有有用结构中的文本片断组织起来作为所提取的网页核心内容。最后，在步骤S350，输出所提取的网页核心内容，然后结束处理。

上述处理过程将在以下进行详细描述。

图4示出根据本发明的基于网页页面布局提取网页的核心内容的网页核心内容提取系统。所述网页核心内容提取系统包括基本结构树创建部分410、长度直方图构造和分析部分420、有用基本结构选择器430、文本块分析器440、文本块检查器450、核心内容组合部分470以及广告、导航和版权典型词词典460。

基本结构树创建部分410用于分析网页页面布局并创建网页的基本结构树。为了创建网页的基本结构树，基本结构树创建部分410首先顺序地扫描所要处理的HTML文档，找出所有<Table>标记、<Th>标记和<Td>标记，并记录它们之间的包含关系(表结构中可以包含Th和Td基本结构，Th和Td基本结构又可以包含表结构)。然后，以网页(HTML文档)作为树根建造基本结构树，以表结构作为基本结构树的奇数层(例如，第一层)节点，以Th和Td基本结构作为基本结构树的偶数层节点，并且使得树中的下一层节点一定出现在其上一层节点的标记符之内。从而以基本结构树的形式表示出HTML文档中所有<Table>标记、<Th>标记和<Td>标记之间的关系。

图2b中示出了根据本发明的基本结构树的一个简化实例，它对应于图2a所示的网页的页面布局。

再参考图4，如果基本结构树创建部分410所建立的基本结构树是空树，则基本结构树创建部分410将网页输出到文本块分析器440(将在下文进行详细描述)。如果基本结构树创建部分410所建立的基本结构树是非空树，则基本结构树创建部分410将该非空基本结构树输出到长度直方图构造和分析部分420。另外，根据本发明的一个优选实施方式，为了索引树图中的基本结构，基本结构树创建部分410还给基本结构树的每一个节点编号并将标号与对应的基本结构相关联。例如，通过以先序(pre-order)遍历表结构并以后序方式(post-order)遍历基本结构来对基本结构编号。因此，可以利用二维索引坐标(t1，t2)定位基本结构，其中t1是这种基本结构(即，表结构)的直接父辈的索引，而t2是其本身的索引。

长度直方图构造和分析部分420用于理解作为网页的HTML文档的文本片断的分布情况。图5示出了所述长度直方图构造和分析部分420的结构框图。参考图5，长度直方图构造和分析部分420包括长度直方图构造部分510、真实数据表判决部分520和长度直方图分析部分530。

在图5中，长度直方图构造部分510用于创建如图6中所示的长度直方图。在如图6所示的长度直方图中，x轴表示所述HTML文档中的基本结构的文本长度(即基本结构的总字节数)，而y轴表示在HTML文档中、具有一定长度的基本结构的数量。在根据本发明的优选实施例中，所述长度直方图构造部分510首先将文本中的制表符、空格符、回车/换行符过滤掉，然后再计算各基本结构的文本长度并计数各种文本长度的基本结构的个数，以构造长度直方图。

值得注意的是，一般来说，属于核心内容的文本块的文本长度较长，而核心内容中的链接比率(链接文本的长度/文本长度)较小。因此，可以将每一个基本结构的文本长度和链接比率作为该基本结构的关键特征，用来估计基本结构中是否含有核心内容。

考虑到上述基本原理，所述长度直方图构造部分510也可以分析每一个基本结构文本长度和链接比率，以便根据一个基本结构的文本长度和链接比率特征判断该基本结构是否为包含核心内容的核心内容中心结构。在本发明的优选实施例中，所述长度直方图构造部分510在构造长度直方图时不考虑链接比率大于0.8的基本结构。

在参考图5，真实数据表判决部分520根据长度直方图构造部分510所创建的HTML文档的长度直方图分析网页类型并存储分析结果。例如，在图6所示的长度直方图中示出了两种类型的网页。第一种类型的网页是仅仅包括用于显示真实数据的表结构的网页，并且其核心内容不位于基本结构中。这种类型的HTML文档应当在如图6b中所示的长度直方图的左边具有峰值。第二种类型的网页是核心内容位于基本结构中的网页。这种类型的HTML文档具有如图6a中所示那样的长度直方图。也就是说，在这种类型的网页中存在长文本片断的基本结构。

一般来说，如果在一个长度直方图的左边存在一个峰值，就暗示着可能存在用于显示真实数据的表结构(以后称为真实数据表)。具体地说，真实数据表判决部分520依据下列四个判据确定这种表结构是否是真实数据表：

1)以这种表结构为树根的子树仅仅包括基本结构(即，不包括任何表结构)；

2)这种表结构内的基本结构的平均文本长度小于一个预定阈值；

3)这种表结构内的基本结构的数目大于一个预定阈值；以及

4)在这种表结构中不存在任何图像链接。

如果真实数据表判决部分520判定某一表结构满足上述四个判据，则将其确定为真实数据表。如果在网页中存在真实数据表，则将这些真实数据表结构与其二维索引号(t1，t2)一起输出到核心内容组合部分470，在那里与文本块检查器450输出的文本块组合起来，以便整体地输出所提取的核心内容。核心内容组合部分470和文本块检查器450将在下文中详细描述。如果网页中存在非真实数据表结构，则真实数据表判决部分520将其与对应的二维索引号(t1，t2)一起输出到长度直方图分析部分530。

另外，根据本发明的一个优选实施例，真实数据表判决部分520可以使用本领域熟知的、基于统计特征学习的方法来确定真实数据表结构。

然后，所述长度直方图分析部分530分析每一个基本结构文本长度，并根据基本结构的文本长度特征判断该基本结构是否为包含核心内容的核心内容中心结构。如果基本结构被确定为包含核心内容的核心内容中心结构，则所述长度直方图分析部分530将其输出到有用基本结构选择器430，在那里将其周围的预定范围内的基本结构都选择为有用基本结构，这一点在以下将更详细地描述。

如果除去真实数据表结构后，直方图不再包含基本结构，则将网页输出到文本块分析器440。文本块分析器440的功能将在下文进一步描述。

在根据本发明的一个实施例中，将文本长度大于300的基本结构确定为含有核心内容的核心内容中心结构。

从图6中可以看出，一份HTML文档的长度直方图提供了该HTML文档中的文本片断整体分布。例如，图6a示出只存在一个文本长度大于300的基本结构。这一点指示了核心内容最可能位于这个基本结构及其相邻的基本结构。在本发明的优选实施例中，在图6所示的长度直方图中，不考虑链接比率大于0.8的基本结构。

再参考图4，有用基本结构选择器430用于从所要处理的HTML文档中选择包含核心内容的基本结构。一般来说，网页核心内容定位于仅仅几个基本结构，而大多数基本结构被填满了广告和导航信息。因此，需要选择含有核心内容的有用基本结构以便进一步处理。需要说明的是，一个HTML文档中的核心内容一般被分布于相邻的基本结构中。也就是说，有用基本结构表现出空间上的局部性。例如，新闻网页的核心内容可以定位于分别包含标题、作者、正文文本以及新闻来源的四个基本结构，而且基本结构树中，这些基本结构节点的位置非常接近。

为了定位基本结构，有用基本结构选择器430在当网页存在几百个基本结构时，一般将基本结构的索引(t1，t2)中t2(即，基本结构的索引)标准化到[0，1]的范围中。

图7是图解根据本发明的、在基本结构树中定位基本结构的视图。参考图7，有用基本结构选择器430首先从长度直方图中找出包括最长文本片断的基本结构，以及长度直方图分析部分530所得到的核心内容中心结构。这种结构可以被认为是核心内容最可能被定位其中的基本结构。以下将这种基本结构称为核心内容中心结构，图7中的最大的五角星就是这样一个核心内容中心结构。然后以核心内容中心结构的位置为中心作矩形区域，以使得下列公式成立：

|t₁-T₁|≤S₁

|t₂-T₂|≤S₂其中(t1，t2)表示所确定的区域内的点，(T1，T2)是在第一步骤中所找出的核心内容中心结构的位置即区域的中心，S1和S2是两个预定阈值。图7中的矩形区域是一个示例。最后，有用基本结构选择器430将定位于所确定的区域中的基本结构被看成包含核心内容的基本结构，并将选择结果输出到文本块分析器440。

再参考图4，文本块分析器440接收有用基本结构选择器430、长度直方图构造和分析部分420以及基本结构树创建部分410的输出，以便对所选出的有用基本结构中的文本片断进行更好地组织。文本块分析器440首先利用HTML标记作为定界符，诸如<p>、<div>、<br>、<li>、<hr>和<pre>等，将每个基本结构中的文本片断分段为一些独立的文本块。然后将出现在有用基本结构中的所有文本块依次连接起来，以便作为文本块分析器440的输出。

文本块检查器450接收文本块分析器440的输出，并基于广告、导航和版权典型词词典460，检查所接收到的文本块中是否存在一定数量的广告、导航或版权词汇。如果一个文本块包含一定数量的广告、导航或版权词汇，则将该文本块从所接收到的数据中去除，然后输出处理结果给核心内容组合部分470。

所述核心内容组合部分470按照各基本结构在原始网页中的位置关系，将文本块检查器450以及长度直方图构造和分析部分420的可能的重新组合起来，以便作为要提取的网页核心内容输出。

在根据本发明的优选实施例中，文本块检查器450至少检查每个核心内容中心结构及其附近的有用基本结构中的所有文本块中的至少头一个文本块和最后一个文本块。原因是，HTML文档中的核心内容中心结构一般被认为一定含有核心内容，而且根据实际的观察，大多数HTML网页中靠近核心内容中心结构的基本结构都含有核心内容。

图8示出根据本发明的、基于网页页面布局提取网页的核心内容的网页核心内容提取方法的流程图。为了分析网页的页面布局，在步骤S810，利用基本结构树创建部分410创建与所处理的文档相对应的基本结构树(图2b示出了这种基本结构树的一个示例)。

在步骤S820，基本结构树创建部分410判断所创建的文档基本结构树是否为空树。如果基本结构树是空的，则暗示这种文档具有相对简单的网页页面布局并且几乎不包含不相关于核心内容的信息。在这种情况下，处理转到步骤S860，在其中可以利用文本块分析器440将HTML标记作为定界符，诸如<p>、<div>、<br>、<li>、<hr>和<pre>，将网页的文本片断分段为一些独立的文本块。然后将出现在有用基本结构中的所有文本块依次连接起来，以便于进一步处理。

如果在步骤S820将文档基本结构树确定为非空树图，则处理转到步骤S830，在其中利用长度直方图构造部分510构造反映关于基本结构的统计特性的长度直方图(图6示出了根据本发明的长度直方图的两个示例)。

在步骤S835，长度直方图构造和分析部分420对该网页长度直方图进行分析，以便利用真实数据表判决部分520鉴别该网页中的真实数据表与用于网页页面布局的表结构。真实数据表判决部分520还将所有真实数据表结构与其二维索引坐标(t1，t2)一起存储在一个储存库(未示出)中。然后在步骤S840中判断网页的类型，如果判断出该网页仅仅包含真实数据表结构，则将处理直接转移到步骤S860(将在下文中描述)。

如果在步骤S840判断出网页中存在非真实数据表的基本结构，则将网页中的所有非真实数据结构与其对应的二维索引坐标(t1，t2)一起存储在所述储存库中，然后将处理转移到步骤S850。

在步骤S850，由于不是每个基本结构都包含核心内容，所以有用基本结构选择器430鉴别包含核心内容的有用基本结构。在根据本发明优选实施例中，有用基本结构选择器430基于核心内容分布于几个相邻的基本结构的事实，来进行有用基本结构的选取。如上所述，这样选取的几个相邻的有用结构一般是落入以按照网页的长度直方图找出的核心内容中心结构的一个预定矩形中的基本结构。

接下来，在步骤S860，文本块分析器440将每个有用结构中的文本信息都分离成一组文本块，每个有用结构中的文本块按照其在网页中的先后次序排列，并将各个有用结构中的排列起来的文本块分别与该有用结构对应的二维索引坐标关联起来，以便输出所有有用结构中的所有文本块并在输出中保持个文本块在网页中的相对位置。然后，处理转移到步骤S870，

在步骤S870，无论基本结构树是否为非空，都将文本块检查器450应用于至少头一个文本块和最后一个文本块。特别地，如果在步骤S850中找到核心内容中心结构，还将落入所找到的核心内容中心结构的一个预定矩形中的所有基本结构中的所有文本块中的至少头一个文本块和最后一个文本块进行检查。在根据本发明的一个优选实施方式，步骤S870对所有文本块进行检查。

文本块检查器450主要依赖于包括某些用于广告、导航和版权的典型词汇的广告、导航和版权典型词词典460，检查文本块中包含的、用于广告、导航和版权的典型词汇。如果文本块包含一定数量的广告、导航或版权词，则从输出中将该文本块删除。

最后，在步骤S880，如果在步骤S840中判断出网页存在真实数据表结构，则将取出在步骤S835中存储的真实数据表结构以及对应的二维索引坐标，并按照所述二维索引坐标以及步骤S870的输出中的二维索引坐标，将步骤S870输出的文本块与在步骤S835中存储的真实数据表结构合并起来，作为所提取的网页核心内容输出。然后结束该处理。

为了更好地对于具有特殊结构的一组网页的核心内容进行提取，可以将上述发明作适当改进。

图9示出了根据本发明的另一优选实施例的、用于提取特殊结构的一组网页的核心内容的网页核心内容提取系统的框图。参考图9，所述网页核心内容提取系统包括知识数据库创建单元900、基本结构树创建部分910、长度直方图构造和分析部分920、有用基本结构选择器930、文本块分析器940、文本块检查器950、广告、导航和版权典型词词典960、核心内容组合部分970、知识数据库980以及有用基本结构直接获得部分990。在根据该优选实施方式的网页核心内容提取系统中，基本结构树创建部分910、长度直方图构造和分析部分920、有用基本结构选择器930、文本块分析器940、文本块检查器950、广告、导航和版权典型词词典960和核心内容组合部分970具有与图4所示的基本结构树创建部分410、长度直方图构造和分析部分420、有用基本结构选择器430、文本块分析器440、文本块检查器450、广告、导航和版权典型词词典460和核心内容组合部分470几乎相同的功能，在以下的描述中仅仅对其不同点进行描述。

参考图9，基本结构树创建部分910在要进行核心内容提取的多份具有特殊结构的网页文档中选取至少两份作为代表(以下称为训练文档)。接收所选定的所有训练文档，并且像基本结构树创建部分410那样为所接收到的所有训练文档创建基本结构树，然后将所创建的所有基本结构树输出到知识数据库创建单元900。知识数据库创建单元900找出所接收到的所有基本结构树中的最大公共子树，确定所述最大公共子树中的有用基本结构的位置，例如利用所述二维索引坐标标注各个基本结构在训练文档中的位置，并获得出现在所有训练文档中的公共文本片断。然后，将所获得的诸如最大公共子树、有用基本结构在公共子树中的位置和所有公共文本片断等创建知识数据库980。这里，所述的训练文档可以是来自同一网站的同一频道的网页。另外，知识数据库980可以像普通数据库那样进行创建。

基本结构树创建部分910在创建了训练网页的知识数据库之后，将开始一页一页地进行核心内容的提取操作。在这种情况下，基本结构树创建部分910接收到网页，为其创建基本结构树并指定所创建的基本结构树中各个节点(基本结构)的二维索引坐标，然后利用所创建的知识数据库980判断网页的基本结构树中是否存在保存在知识数据库980中的最大公共子树。如果存在所述的最大公共子树，则把网页中的最大公共子树所在的基本数据结构及其二维索引坐标转移到有用基本结构直接获得部分990。有用基本结构直接获得部分990根据保存在知识数据库中的、关于此类具有特殊结构的网页中的有用基本结构在公共子树中的位置和所有公共文本片断等信息，直接从确定有用基本结构。

另外，基本结构树创建部分910将空树网页转移到核心内容组合部分940，除此而外，把其它存在非空基本结构树但不存在最大公共子树的网页或不在网页中的最大公共子树的节点上的基本数据结构及其二维索引坐标转移到长度直方图构造和分析部分920。

长度直方图构造和分析部分920、有用基本结构选择器930和文本块分析器940与图4所示的长度直方图构造和分析部分420、有用基本结构选择器430和文本块分析器440具有同样的功能。

文本块检查器950接收文本块分析器940的输出，除了基于广告、导航和版权典型词词典960，去除包含一定数量的广告、导航或版权词汇的文本块外，还计算知识数据库中的公共文本片断和每个有用基本结构的公共文本片断之间的相似性，以进一步删除包括广告和导航信息的基本结构。同样，文本块检查器950可以至少检查每个核心内容中心结构及其附近有用基本结构的所有文本块中的头一个文本块和最后一个文本块。

然后，核心内容组合部分970按照各基本结构在原始网页中的位置关系，将文本块检查器950、有用基本结构直接获得部分990以及长度直方图构造和分析部分920的可能的重新组合起来，以便作为要提取的网页核心内容输出。

图10示出了根据本发明的优选实施例的、用于提取特殊结构的一组网页的核心内容的方法的流程图。在本发明的优选实施例中，用于提取特殊结构的一组网页的核心内容的方法被分成训练阶段和测试阶段。图10a示出了其中的训练阶段的流程图，图10b示出了基于所建知识库的网页核心内容提取方法的流程图。

参考图10a，在训练阶段，首先，在步骤S1011，选取训练文档并利用上述方法建立训练文档的基本结构树，然后找出所输入的训练文档的基本结构树中的最大公共子树。这里的训练文档可以是例如一组具有同样特殊结构的网页的共同模板。然后，在步骤S1013，确定所述最大公共子树中的有用基本结构的位置，比如，利用所述二维索引坐标标注各个基本结构在训练文档中的位置，并获得出现在所有训练文档中的公共文本片断。所述公共文本片断应当表示广告和导航信息，因为来自同一网址的网页一般对广告和导航使用同一文本。最后，在步骤S1015，建立由所述最大公共子树、有用基本结构在公共子树中的位置和公共文本片断组成的知识数据库。

参考图10b，在测试阶段，首先，在步骤S1020，将作为测试输入的HTML文档(网页)解析成基本结构树，然后确定该基本结构树中是否存在保存在知识数据库中的最大公共子树，如果没有就直接转移到步骤S1021，如果有则将该基本结构树中所包含的、保存在知识数据库中的最大公共子树从该基本结构树中取出，并根据知识数据库中的信息直接确定该最大公共子树中的基本结构中的有用基本结构，从而获取其中的网页核心内容并保存起来。然后转移到步骤S1021。

接下来，在步骤S1021，检查步骤S1020所获得的基本结构树(该基本结构树为输入网页的基本结构树去除可能有的最大公共子树上下的部分)是否为空基本结构树。如果基本结构树是为空基本结构树，则处理转移到步骤S1026，在那里将文本信息按照诸如<p>、<div>、<br>、<li>、<hr>和<pre>这类的定界符分离成一组文本块，每个有用结构中的文本块按照其在网页中的先后次序排列，并将各个有用结构中排列起来的文本块分别与该有用结构对应的二维索引坐标关联地起来，以便输出所有有用结构中的所有文本块并在输出中保持各个文本块在网页中的相对位置。然后，处理转移到步骤S1027。

显然，对于具有最大公共子树，特别是最大公共子树为其基本结构树的网页来说，这里跳过了最大公共子树所对应的部分或全部基本结构的长度直方图分析和基本结构选择的步骤，因而提高了效率。

如果在步骤S1021确定步骤S1020所获得的基本结构树为非空基本结构树，则执行步骤S1022-S1026，其中，步骤S1022-S1026与图8中的步骤S830-S870具有相同的功能。

在执行了步骤S1026之后，处理转移到步骤S1027，在这里，依赖于包括某些用于广告、导航和版权的典型词汇的广告、导航和版权典型词词典460，检查文本块中是否包含预定数量的广告、导航和版权词汇。如果文本块包含一定数量的广告、导航或版权词汇，则从输出中将该文本块删除。在步骤S1027，还计算知识数据库中的公共文本片断和每个有用基本结构的公共文本片断之间的相似性，以进一步删除包括广告和导航信息的结构。然后依次输出剩下的文本块。

接下来，处理转移到步骤S1028，在这里，将网页中被判断出来的真实数据表结构、在步骤S1021中根据知识数据库获取的网页核心内容以及，步骤S1027输出的文本块合并起来，作为所提取的网页核心内容输出。然后结束该处理。

应当注意，与要用于处理固定网页页面布局的网页的现有结构相关的方法相比，根据本发明优选实施例的方法不需要手动标注。这一点对于全自动应用来说是非常重要的。

为了评估根据本发明的网页核心内容提取系统的性能，我们将本发明的方法与传统的结构无关的方法比较，因为这两种方法都适合于各种类型的网页。图11示出利用根据本发明的提取特殊结构的网页核心内容的方法和一种传统提取方法提取其核心内容的网页，以及所提取的两种结果的视图。图12示出利用根据本发明的提取特殊结构的网页核心内容的方法和一种传统提取方法提取其核心内容的另一网页，以及所提取的两种结果的视图。参考图11和图12，在这两幅图中，图11a和图12a分别为两个要处理的网页的视图。图11b和10b是利用现有方法(参见现有技术[6])提取图11a和图12a所示的网页核心内容的结果，而图11c)和10c)是根据本发明的方法提取图11a和图12a所示的网页核心内容的结果。在图11b和10b中以斜体和黑体字示出的文本是与核心内容不相关的广告或导航信息。从图11和图12可以看出，利用根据本发明的方法，可以将传统方法没有过滤掉的与核心内容不相关的广告或导航信息有效地过滤掉。

虽然上面主要以硬件结构或方法步骤来描述了本发明的优选实施例，但根据本发明的、基于网页页面布局提取网页的核心内容的网页核心内容提取系统和网页核心内容提取方法也可以实施为计算机程序软件。例如，按照本发明的示范实施例的程序可以是一种计算机程序产品，它使得计算机执行用于所示范的方法。所述计算机程序产品可以包括计算机可读的介质，其上包含计算机程序逻辑或代码部分，用于使得所述网页核心内容提取系统能够按照一个或多个示范方法执行网页核心内容提取。

所述计算机可读存储介质可以是被安装在计算机主体中的内置介质或者被布置使得它可以从计算机主体拆卸的可移动介质。所述内置介质的示例包括但不限于可重写的非易失性存储器，诸如RAM、ROM、快闪存储器和硬盘。可移动介质的示例可以包括但不限于：光存储媒体，诸如CD-ROM和DVD；磁光存储媒体，诸如MO；磁存储媒体，诸如软盘(商标)、盒带和可移动硬盘；具有内置的可重写的非易失性存储器的媒体，诸如存储卡；具有内置的ROM的媒体，诸如ROM盒。

这些程序也可以被提供为外部提供的传播信号和/或在载波中包括的计算机数据信号的形式。体现为示范方法的一个或多个指令或功能的所述计算机数据信号可以被承载在用于通过执行示范方法的指令或功能的实体来发送和/或接收的载波上。而且，这样的程序当被记录在计算机可读存储媒体上时可以容易地被存储和分布。

虽然如此描述本发明的示范实施例，但显然可以以多种方式来改变它们。例如，可以在硬件和/或软件中实现在所述示范系统和方法中所述功能。所述硬件/软件实现方式可以包括处理器和制造物的组合。所述制造物还可以包括存储媒体和可执行的计算机程序。

可执行计算机程序可以包括用于执行所述操作或功能的指令。所述计算机可执行程序也可被提供作为外部提供的传播信号的一部分。这样的变化不被看作对于本发明的精神和范围的脱离，并且对于本领域内技术人员明显的所有这样的修改意欲被包括在所附的权利要求的范围内。

Claims

1.一种提取网页的核心内容的网页核心内容提取系统，该系统接收HTML文档并从其中提取核心内容，包括：

文本块分析器，用于通过HTML标记作为定界符将输入的HTML文档中的每个有用基本结构中的文本片断分段为一个或多个独立的文本块，并将出现在每个有用基本结构中的所有文本块依次连接起来作为输出，其中所述有用基本结构为可能包含网页核心内容的基本结构；以及

文本块检查器，用于从文本块分析器输出的所述文本块中去除不含网页的核心内容的文本块并依次输出余下的文本块作为网页核心内容。

2.根据权利要求1所述的网页核心内容提取系统，其中，所述文本块分析器识别的定界符为<p>、<div>、<br>、<li>、<hr>和<pre>。

3.根据权利要求1所述的网页核心内容提取系统，其中，所述文本块检查器基于一广告、导航和版权典型词词典，检查所接收到的文本块中是否存在预定数量的广告、导航或版权词汇，如果一个文本块包含预定数量的广告、导航或版权词汇，则将该文本块从所接收到的数据中去除。

4.根据权利要求1-3中的任何一个所述的网页核心内容提取系统，还包括：

长度直方图构造和分析部分，其构造关于输入的HTML文档的长度直方图，基于所述长度直方图提取网页中存在的真实数据表，将输入的HTML文档中提取了所述真实数据表后余下的部分提供给所述文本块分析器进行分析；以及

核心内容组合部分，将长度直方图构造和分析部分所提取的所述真实数据表与所述文本块检查器输出的文本块组合起来作为整体输出，

其中，所述长度直方图为x轴表示所述HTML文档中的基本结构的文本长度、y轴表示HTML文档中、具有一定长度的基本结构的数量的图表。

5.根据权利要求4所述的网页核心内容提取系统，其中，所述长度直方图构造和分析部分包括长度直方图构造部分，所述长度直方图构造部分将基本结构的文本中的制表符、空格符、回车/换行符过滤掉，然后再计算各基本结构的文本长度并计数各种文本长度的基本结构的个数，以构造长度直方图。

6.根据权利要求5所述的网页核心内容提取系统，其中，所述长度直方图构造部分还对于每一个基本结构计算其链接和其文本长度的比率(链接文本的长度/文本长度)，并将所计算出的每个文本长度和链接比率与预定阈值比较，针对链接比率低于所述阈值的基本结构构造长度直方图。

7.根据权利要求6所述的网页核心内容提取系统，其中，所述阈值为0.8。

8.根据权利要求4的所述的网页核心内容提取系统，还包括：

基本结构树创建部分，用于顺序地扫描输入的HTML文档，找出其中所有的<Table>标记、<Th>标记和<Td>标记，并记录这些标记之间的包含关系，以便创建网页的基本结构树，其中所述基本结构树以网页作为树根，其奇数层节点只表示网页中的表结构，而偶数层节点只表示网页中的基本结构，其中下一层节点所表示的结构一定出现在上一层节点所表示的结构的定界符之内，并利用二维索引坐标(t1，t2)为所述基本结构树创建部分以先序方式遍历表结构并以后序方式遍历基本结构的方法对基本结构编号，t1表示基本结构的直接父辈的索引，而t2表示其本身的索引，以便于定位各基本结构在HTML文档中的位置，

其中，如果所建立的基本结构树是空树，则将网页直接输出到文本块分析器。

9.根据权利要求8所述的网页核心内容提取系统，其中，所述长度直方图构造和分析部分还包括真实数据表判决部分，用于根据所述直方图确定HTML文档中的真实数据表。

10.根据权利要求9所述的网页核心内容提取系统，所述真实数据表判决部分根据下列条件来确定真实数据表结构：

1)以其为树根的子树仅仅包括不是表结构的基本结构；

2)其中的基本结构的平均文本长度小于一个预定阈值；

3)其中的基本结构的数目大于一个预定阈值；以及

4)其中不存在任何图像链接，

其中所述真实数据表判决部分将网页中的真实数据表作为核心内容文本输出。

11.根据权利要求9所述的网页核心内容提取系统，其中，所述真实数据表判决部分使用基于统计特征学习的方法来确定真实数据表结构。

12.根据权利要求8所述的网页核心内容提取系统，其中，所述长度直方图构造和分析部分还包括长度直方图分析部分，用于根据所述直方图将文本长度大于一阈值的基本结构确定为核心内容中的结构。

13.根据权利要求12所述的网页核心内容提取系统，其中，所述阈值为300。

14.根据权利要求8所述的网页核心内容提取系统，还包括：

有用基本结构选择器，其连接在长度直方图构造和分析部分和所述文本块分析器之间，基于从长度直方图中找出的核心内容中心结构和包括最长文本片段的基本结构(T1，T2)，选择满足下列公式

|t₁-T₁|≤S₁

|t₂-T₂|≤S₂的所有基本结构(t1，t2)作为包含核心内容的有用基本结构输出到所述文本块分析器，其中S1和S2是两个预定阈值，二维索引坐标(t1，t2)为所述基本结构树创建部分以先序方式遍历表结构并以后序方式遍历基本结构的方法对基本结构编号，t1表示基本结构的直接父辈的索引，而t2表示其本身的索引。

15.根据权利要求14所述的网页核心内容提取系统，其中，所述文本块检查器检查所接收到的每个所述核心内容中心结构以及与该核心内容中心结构相邻的所有有用基本结构的所有文本块中的至少头一个文本块和最后一个文本块。

16.根据权利要求8所述的网页核心内容提取系统，还包括：

有用基本结构直接获得部分，连接到基本结构树创建部分，当输入的网页存在保存于一知识数据库中的最大公共子树时，基于该知识数据库中的最大公共子树、有用基本结构在公共子树中的位置和所有公共文本片断信息，直接确定有用基本结构作为网页核心内容输出，

其中，所述知识数据库是从具有与所检查的网页相同或相近的页面布局的网页中获得的最大公共子树、有用基本结构在公共子树中的位置和所有公共文本片断所构成的数据库。

17.根据权利要求8所述的网页核心内容提取系统，其中，所述文本块检查器通过计算知识数据库中的公共文本片断和每个有用基本结构的公共文本片断之间的相似性来确定文本块含有广告和导航信息，并去除包含广告和导航信息的文本块，

18.根据权利要求16或17所述的网页核心内容提取系统，还包括：

知识数据库创建单元，用于从要处理的网页集合中选取训练文件并利用基本结构树创建部分创建其基本结构树，找出所有所创建的基本结构树中的最大公共子树，确定所述最大公共子树中的有用基本结构的位置，并获得出现在所有训练文档中的公共文本片断，然后将所获得的最大公共子树、有用基本结构在公共子树中的位置和所有公共文本片断创建知识数据库。

19.一种提取网页的核心内容的网页核心内容提取方法，该方法处理HTML文档以从其中提取核心内容，所述方法包括：

文本块分析步骤，用于通过HTML标记作为定界符将输入的HTML文档中的每个有用基本结构中的文本片断分段为一个或多个独立的文本块，并将出现在每个有用基本结构中的所有文本块依次连接起来作为输出，其中所述有用基本结构为可能包含网页核心内容的基本结构；以及

文本块检查步骤，用于从作为输出的所述文本块中去除不含网页的核心内容的文本块并依次输出余下的文本块作为网页核心内容。

20.根据权利要求19所述的网页核心内容提取方法，其中，所述文本块分析步骤使用的定界符为<p>、<div>、<br>、<li>、<hr>和<pre>。

21.根据权利要求19所述的网页核心内容提取方法，其中，所述文本块检查步骤基于一广告、导航和版权典型词词典，检查所接收到的文本块中是否存在预定数量的广告、导航或版权词汇，如果一个文本块包含预定数量的广告、导航或版权词汇，则将该文本块从所接收到的数据中去除。

22.根据权利要求19-21中的任何一个所述的网页核心内容提取方法，还包括：

长度直方图构造和分析步骤，其构造关于输入的HTML文档的长度直方图，基于所述长度直方图提取网页中存在的真实数据表作为网页核心内容，并去除所述真实数据表后余下的部分提供给所述文本块分析步骤进行分析；以及

核心内容组合步骤，将所提取的所述真实数据表与所述文本块检查步骤输出的文本块组合起来作为整体输出，

23.根据权利要求22所述的网页核心内容提取方法，其中，在计算基本结构的文本长度时，排除制表符、空格符、回车/换行符的数量。

24.根据权利要求22所述的网页核心内容提取方法，其中，长度直方图构造和分析步骤对于每一个基本结构计算其链接和其文本长度的比率(链接文本的长度/文本长度)，并将所计算出的每个文本长度和链接比率与预定阈值比较，针对链接比率低于所述阈值的基本结构构造长度直方图。

25.根据权利要求23所述的网页核心内容提取方法，其中，所述阈值为0.8。

26.根据权利要求22的所述的网页核心内容提取方法，还包括：

基本结构树创建步骤，用于顺序地扫描输入的HTML文档，找出其中所有的<Table>标记、<Th>标记和<Td>标记，并记录这些标记之间的包含关系，以便创建网页的基本结构树，其中所述基本结构树以网页作为树根，其奇数层节点只表示网页中的表结构，而偶数层节点只表示网页中的表头和基本结构，其中下一层节点所表示的结构一定出现在上一层节点所表示的结构的定界符之内；

利用二维索引坐标(t1，t2)以先序方式遍历表结构并以后序方式遍历基本结构的方法对基本结构编号的步骤，t1表示基本结构的直接父辈的索引，而t2表示其本身的索引，以便于定位各基本结构在HTML文档中的位置；以及

将空的基本结构树输出直接到文本块分析步骤的步骤。

27.根据权利要求26所述的网页核心内容提取方法，其中，所述长度直方图构造和分析步骤包括真实数据表判决步骤，用于根据所述直方图确定HTML文档中的真实数据表。

28.根据权利要求27所述的网页核心内容提取方法，其中，所述真实数据表判决步骤根据下列条件来确定真实数据表结构：

1)以其为树根的子树仅仅包括不是表结构的基本结构；

2)其中的基本结构的平均文本长度小于一个预定阈值；

3)其中的基本结构的数目大于一个预定阈值；以及

4)其中不存在任何图像链接，以及

将真实数据表作为核心内容文本输出的步骤。

29.根据权利要求27所述的网页核心内容提取方法，其中，所述真实数据表判决步骤使用基于统计特征学习的方法来确定真实数据表结构。

30.根据权利要求26所述的网页核心内容提取系统，其中，所述长度直方图构造和分析步骤还根据所述直方图将文本长度大于一阈值的基本结构确定为有用基本结构。

31.根据权利要求30所述的网页核心内容提取系统，其中，所述阈值为300。

32.根据权利要求26所述的网页核心内容提取方法，还包括：

有用基本结构选择步骤，基于从长度直方图中找出的核心内容中心结构和包括最长文本片段的基本结构(T1，T2)，选择满足下列公式

|t₁-T₁|≤S₁

33.根据权利要求32所述的网页核心内容提取方法，其中，所述文本块检查步骤检查所接收到的每个所述核心内容中心结构以及与该核心内容中心结构相邻的所有有用基本结构的所有文本块中的至少头一个文本块和最后一个文本块。

34.根据权利要求32所述的网页核心内容提取方法，还包括：

有用基本结构直接获得步骤，当输入的网页存在最大公共子树时，用于基于一知识数据库中的最大公共子树、有用基本结构在公共子树中的位置和所有公共文本片断信息，直接确定有用基本结构作为网页核心内容输出，

35.根据权利要求32所述的网页核心内容提取方法，其中，所述文本块检查步骤通过计算知识数据库中的公共文本片断和每个有用基本结构的公共文本片断之间的相似性来确定文本块含有广告和导航信息，并去除包含广告和导航信息的文本块，

36.根据权利要求34或35所述的网页核心内容提取方法，还包括：

从要处理的网页集合中选取训练文文件并创建其基本结构树的步骤；

找出所有所创建的基本结构树中的最大公共子树，确定所述最大公共子树中的有用基本结构的位置，并获得出现在所有训练文档中的公共文本片断的步骤，以及

将所获得的最大公共子树、有用基本结构在公共子树中的位置和所有公共文本片断创建知识数据库的步骤。

37.一种计算机程序，包含用来执行根据权利要求19至36中任一项的方法的步骤的程序代码，其中所述程序运行在计算机上。

38.一种存储在计算机可用介质上的计算机程序产品，包含用来使计算机执行根据权利要求19至36中任一项的方法的计算机可读程序。