CN102043819A

CN102043819A - Html表格语义脉络分析方法

Info

Publication number: CN102043819A
Application number: CN2009102724083A
Authority: CN
Inventors: 尹文生
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2009-10-20
Filing date: 2009-10-20
Publication date: 2011-05-04

Abstract

一种HTML表格语义分析方法，应用于网页文档的检索，可以根据HTML表格中不同单元格之间的几何位置关系获得该表格的语义脉络关系。通过定义表格坐标系及表格矩阵来描述单元格，定义列或行组合单元并以列或行组合单元为分析对象来确定表格中属性及其取值的特征。通过分析单元格之间的几何位置关系设定每个属性的作用域及建立属性及其取值的识别规则，这样可以使用表格矩阵对表格单元格进行遍历，建立所有单元格之间的关系，形成表格语义脉络树，为文档的检索提供支持。该方法符合人的制表和阅读习惯，算法简单，只需要记录表格内容树而不必将其展开成本体节点或数据库数据，大大节省存储空间。

Description

HTML表格语义脉络分析方法

技术领域

本发明涉及一种HTML表格的语义分析方法，尤其是能应用在网页文档的检索中，可以根据HTML表格中不同单元格之间的几何位置关系建立关联关系，从而对表格中的数据内容建立起语义脉络关系。

背景技术

表格是人们一种常用的、结构化表达语义关系的手段，可以有效地对一个或多个类的具体的实例进行描述，因此表格被广泛地应用于各种文档中。随着互联网技术的发展和应用的推广，以超文本标记语言(HTML)等形式构建的表格在网页中得到广泛使用。对于人类而言，用表格来表达语义关系是比较清晰的，但由于人的智能性、简略性及不规范性，许多表格蕴含了非常复杂的语义关系，在许多情况下对计算机来说难以理解。这里主要研究符合一般人的制表和阅读习惯的HTML表格的处理方法，表格之间没有语义关系、或者非常不规范的表格不是这里涉及的范围。

由于表格中的各个单元格之间具有一定的语义关系，为了理解表格的语义首先必须对表格进行分析。其次，需要将分析结果以合适的方式提供给文档检索系统。

HTML等语言通过标记词TABLE、TBODY、TR、TH、TD作为骨架来构建表格。表格分析的任务就是将包含这些标记词的文件转化成文档对象模型(Document Object Model，DOM)，建立不同单元格之间的逻辑关系，最后对单元格进行组合形成一个比较完整的语义描述。

HTML表格通过属性-值对来描述对象。内容为对象属性的单元格称为属性单元格，内容为属性值的单元格称为值单元格。按照属性单元格所在位置，可将表格分为行标题表格、列标题表格、行列标题表格、无标题表格4种基本类型。HTML表格存在语法层次结构，是表格中数据内容的内在语义层次的反映[1]。表格语义分析的任务就是找出表格中数据内容中的语义关系。

在HTML表格的分析方面，许多学者进行了大量的工作，如文献[2]基于正则表达式匹配技术从HTML表格中抽取信息；文献[3]基于本体使用隐马尔可夫模型从web页面中抽取属性和值；文献[4，5]用内容树来获取HTML表格信息；文献[6]使用启发式规则；文献[7]通过人工解释表格结构，半自动化地抽取表格数据；文献[8]集成HTML表格的半自动化方法。表格语义分析的关键是确定单元格之间的关系，由于单元格之间是以几何位置表现出来，因此分析单元格之间的几何位置关系是分析表格语义关系的一个重要方法，所以文献[6，7，8]所介绍的方法比较直观，也比较有效，但是需要一定的人工干预。其中，文献[7]在仔细分析常见的一些表格后指出表格单元格之间的关系可以根据相邻单元格之间边的关系分为双向、单向和无关系三类，这样在人工的帮助下可以有效地识别并搜索出单元格之间的这些关系。

文献[1]为了克服半自动方法效率低的缺点，在分析了这些方法的基础上提出了一种自动获取HTML表格语义层次结构及信息的方法，通过自上而下、从左向右对表格拆分成基本类型表格来获得语义层次结构，同时还可以解决嵌套表格问题。

表格语义分析的主要目的是为了有效地进行文档的检索，因此必须将表格语义分析结果以合适的方式记录下来。表格语义分析结果一般都采用内容树予以记录，这样可以按照本体的方式进行组织，并存储在本体的树或数据库中。当进行文档检索时，可以沿着本体的树结构进行搜索。显然，当表格被转化成内容树以后，查询的效率将会大大提高，但是由于本体论的研究和应用还处在初级阶段，还存在许多问题没有解决，同时描述表格语义数据也需要耗费大量的空间，增加数据库的负担。

因此本发明人认为目前表格语义关系的分析主要存在两大问题。一个问题是由于表格语义关系的高度复杂性，设计能完全正确识别成功的自动方法存在较大的困难，例如文献[7]仅考虑相邻单元格之间的关系，没有作用域的概念，所以需要人工的参与。另一个问题是，如何有效地将表格分析结果应用于文档的检索。

主要参考文献：

[1]范莉娅，肖田元。自动获取HTML表格语义层次结构方法[J]。清华大学学报(自然科学版)，2007，47(10)：1586-1590

[2]张凯。基于本体的web信息集成若干关键技术研究[D]。上海：复旦大学博士论文，2004。

[3]Minoru YOSHIDA.Extracting attributes and their values from web pages[C].Proceedings ofthe ACL Student Research Workshop，Philadelphia，.July 2002，pp.72-77.

[4]Lim Seungjin，Ng Yiukai.An automated approach for retrieving hierarchical data from HTMLtables[C].Proceedings of the Eighth International Conference on Information and KnowledgeManagement.Kansas City：ACM，1999：466-474.

[5]LIU Jiexue，AO Zhuoyun，Park H H，et al.An XML approach to semantically extract data fromHTML tables[C].Database and Expert Systems Applications，DEXA 2005，Lecture Notes inComputer Science 3588.Heidelberg：Springer Berlin，2005：696-705.

[6]Kim Yeonseok，Lee Kyongho.Extracting table information from the Web[C].DocumentAnalysis Systems VI.6^th International Workshop，DAS 2004，Lecture Notes in ComputerScience 3163，2004：438-441.

[7]Tanaka M，Ishida T.Ontology extraction from tables on the web[C].Proceedings of theInternational Symposium on Applications on Internet in SAINT206.Washington：IEEEComputer Society，2006：284-290.

[8]LI Shijun，PENG Zhiyong，LIU Mengchi.Extraction and integration information in HTMLtables[C].Fourth International Conference on Computer and Information Technology.Nanjing，China，2004：315-320.

发明内容

为了克服现有的HTML表格分析中的不足，提高表格分析的效率和检索查全率，本发明提出一种新的HTML表格分析方法。该方法的特点是：首先根据HTML表格的语义表达特点建立表格坐标系及表格矩阵并用来记录显示单元格；然后建立列或行组合单元；以列或行组合单元为分析对象，根据表格中属性及其取值的特征，确定每个属性的作用域，而不仅仅限制于相邻的单元格；建立属性及其取值的识别规则，定义属性之间的父子关系；最后对表格坐标系进行遍历，建立所有列或行组合单元格之间的关系，这样相关的单元格之间就形成了语义脉络关系，而不需要一个本体树的转化和存储过程，当进行文档检索时只需将用户输入的语义脉络句子与表格的语义脉络进行匹配即可实现检索功能。有关语义脉络的定义和处理方法可以参阅本发明人的发明专利：语义脉络文档查询方法(申请号：200810236750.3)。

本发明所采用的技术方案如图1所示：

步骤101：根据HTML表格的描述方法建立一个表格坐标系，即以水平向右方向定义为x正方向，垂直向下方向为y正方向，表格的左端点为原点，坐标单位为表格一个格子建立表格坐标系，其中标准表格中的一个格子称为表格的一个标准单元格；

步骤102：定义在HTML文档中描述的能在浏览器中显示的表格中不可再分的格子称为显示单元格，这就是人们日常所说的单元格；

步骤103：用一个矩阵来记录标准表格，称之为表格矩阵；

步骤104：定义列或行组合单元格。所谓列组合单元格就是在y方向上所有落在两个列[c_min，c_max]之间的单元格的集合，其中如果每个单元格都不超越列[c_min，c_max]的列组合单元格称为规范列组合单元格。行组合单元格的定义类似列组合单元格；

步骤105：在HTML中，如果一个标记TABLE出现在另一个表格的单元格中，则定义该标记表示了一个嵌套表格。嵌套表格是表格的层次化，通过递归调用程序来实现，与表格的处理方法是一样的；

步骤106：根据关系理论和人们制表时的习惯可以认为表格表达了一系列属性及其取值，其中属性用表格中的属性名表示，其取值包含一个或多个数据集合；

步骤107：由于表格中属性及其取值是按照列或行的方式排列的，即属性是按照列或行的方式建立作用域，所以列或行组合单元格表达了某些属性和取值；

步骤108：建立属性识别规则。即相同属性及其取值不仅包含在相同的列或行组合单元格中，而且具有相同的宽度或高度，当同一个列或行组合单元格中相邻两个单元格具有不同的宽度或高度时，这两个单元格将表示不同的属性或取值。同时，根据人们制表或阅读表格的自上而下、从左向右的习惯，在列或行组合单元格中首次出现的不同宽度或高度单元格一般表示表格中的一个属性，以后出现的单元格则是它的取值单元格；

步骤109：建立属性间层次关系，形成表格语义树。

对于属性单元格来说，同一个列或行组合单元格中上方或左方的属性单元格与之具有层次关系，其中最相邻的两个属性单元格记录有父子关系。由于表格矩阵和单元格对象具有对应关系，所以可以对表格矩阵按照自上而下、从左向右进行扫描，根据单元格宽度或高度的变化确定各个单元格之间的父子关系，从而得到HTML表格的内容树，其中任何一个从根节点到叶节点的单元格中的文字组合都是该表格的一个语义内容；

步骤110：在进行基于语义脉络的检索时根据用户提供的语义脉络与表格的语义内容进行匹配，满足匹配关系的表格所属的文档就认为是符合检索条件的文档。

本发明所带来的有益效果是，比较符合人们的制表和阅读习惯，表格的属性及其取值识别简单，不需要展开表格中的所有组合，在使用语义脉络进行检索时只需要沿列或行组合单元格进行搜索，算法实现简单，大大节省存储空间，查询效率高，同时也具有较高的查全率。

附图说明

下面结合附图和实施例对本发明进一步说明。

图1是本发明的方案图。

图2是一类简单列或行标题表格。

图3是两类列组合表格，属性之间存在从属关系。请参阅文献[6]。

图4是一种不规范的行列组合表格，在列的方向上属性格之间存在值单元格。请参阅文献[6]。

图5是一种不规范的列组合表格，它的第2行第2列的从属关系不明确。

具体实施方式

如图1所示，以在网络和参考文献上的一些常用表格为说明对象，以VC++为开发语言，以本发明人开发的TableToSS系统为依据，根据本发明所揭示的HTML表格的语义脉络分析方法的原理和实现方案为：

步骤101：创建表格坐标系。

参照关系理论方法给出如下定义：

定义1：给定一组域D₁，D₂，…，D_n，它们的笛卡尔积为D₁×D₂×…×D_n＝{d₁，d₂，…，d_n)|d_i∈D_i，i＝1，2，…，n}，将每个域D_i的域名和笛卡尔积均匀地写在水平和垂直方向上整齐排列的一些二维矩形格子内，并且每一行每个格子等高，每一列每个格子等宽，这样得到的表格称为标准表格。

定义2：对于标准表格，将水平向右方向定义为x正方向，垂直向下方向为y正方向，表格的左端点为原点，坐标单位为表格一个格子，这样得到的坐标系称为表格坐标系。

在HTML表格中，表格坐标系的坐标取值范围是根据TABLE标记块中的行、列参数确定。

步骤102：描述显示单元格。

定义3：标准表格中的一个格子称为表格的一个标准单元格。

如果标准单元格的左上端坐标为(x，y)，则它的4个端点为(x，y)，(x，y+1)，(x+1，y+1)，(x+1，y)，简记为R(x，y)。

定义4：在HTML文档中描述的能在浏览器中显示的表格的不可再分的格子称为显示单元格。

HTML文档以逐行逐列方式描述左端点在该行的每个单元格信息。显然，显示单元格不等同标准单元格，它可以是多个标准单元格的组合，但一定是矩形。如果一个显示单元格U起始行为r_s，结束行为r_e，起始列为c_s，结束列为c_e，则该显示单元格记为U(r_s，r_e，c_s，c_e)。

由于网页上能看见的是显示单元格，所以常常将其简称为单元格。在TableToSS系统用单元格对象来表示。

步骤103：用表格矩阵描述单元格。

定义5：如果表格T右下端坐标为(n_r，n_c)，则记录T所有标准单元格信息的矩阵称为T的表格矩阵，记为M(n_r，n_c)。

M的每一个元素M(i，j)记录了(i，j)处显示单元格的信息，从而建立了表格矩阵与单元格之间的对应关系，这样在设计算法时可以通过对矩阵M的简单遍历完成对整个表格的搜索。

步骤104：定义列或行组合单元格。

组合单元格是人们设计与理解表格的重要形式，是表格语义的表现。从形式看有：组合单元格C＝{U₁，U₂，…，U_n}，其中U₁，U₂，…，U_n是显示单元格。C可以具有不同的几何形状，但本发明人认为表格语义的表达是以列或行为单位进行的。

定义6：对C＝{U₁，U₂，…，U_n}，

(r_si，r_ei，c_si，c_ei)，i＝1，2，…，n，如果c_si和c_ei至少有一项落在列[c_min，c_max]之间，则称C为[c_min，c_max]之间的一个列组合单元格。

定义7：对C＝{U₁，U₂，…，U_n}，

(r_si，r_ei，c_si，c_ei)，i＝1，2，…，n，如果c_si和c_ei全部落在[c_min，c_max]之间，并且，c_sj＝c_min，c_rj＝c_max，则称C为规范列组合单元格。

同样可定义行组合单元格和规范行组合单元格。

步骤105：定义嵌套表格。

定义8：在HTML文件中，表示表格T1的TABLE标记符块如果包含在表示表格T2的TABLE标记符块内，则称T1为T2的嵌套表格。

嵌套表格一般完全包含在一个单元格中，是对该单元格内容的进一步展开。一个单元格还可以拥有多个嵌套表格。

在HTML文件中定义嵌套表格是对表格的层次化，可以使用递归程序予以实现。

步骤106：将表格分解为属性及其取值。

基于语义的表格是人们对语义关系的表述，这种表述要求人们遵守一些公认的法则，使表格各单元格之间保持一种容易理解的逻辑关系。表格语义关系分析的任务就是确定(提取)全部单元格之间的主要语义关系。

根据关系理论，定义1所定义的表格是对某种对象的描述，域D_i是该类对象的属性描述，每一个笛卡尔积元素则描述一个具体的对象所拥有的属性值。

定义9：标准表格T中第一行中用于描述域D_i的域名的各个标准单元格称为T的属性单元格，而其他行中任何标准单元格都是描述对象的域D_i的取值，称为T的值单元格。

定义10：将域D_i的域名和取值按列方向排列的表格称为列标题表格，按行方向排列的表格称为行标题表格。

显然，标准表格为列标题表格，如数据库中的表。行标题表格具有与列标题表格类似的性质，在下面的讨论中不再展开。

标准表格的语义就是：任何一个值单元格都是当前行所在对象对应属性的取值，它们之间的语义关系由表格所定义的谓词关系确定。

对于基于语义的表格语义关系我们给出如下假定：

假定1：一个表格描述一个或多个类的集合中的全部实例的属性和取值。

假定2：在同一行或同一列中，不会出现属性单元格和值单元格间隔的情况。

假定3：属性单元格始终在值单元格的上方或左方。

实际中的表格可能并不是一个简单的列或行标题表格，例如图2，但是在语义分析时可以先分解为列和行标题表格，然后再组合起来形成一个完整的语义句子。

步骤107：建立属性的作用域。

定义11：属性A在表格T中全部的取值称为A在T中的作用域。

从假定2和假定3可以得知：标准表格属性的作用域为该属性所在列除了本身外的所有单元格。根据列组合表格特性作下面假定：

假定4：规范列组合单元格中同一属性的值单元格宽度完全相同，都等于属性单元格的宽度。

所以一个属性的作用域是该属性所在列的全部值单元格。从形式上看就是该属性单元格下面或右边所有的相等宽度或高度的单元格，而一个属性单元格的上面或左边没有与之相等宽度或高度的单元格。

步骤108：给出属性识别规则。

一般而言，行或列组合表格(下面统称列组合表格)是最具有语义关系的组合表格。例如图2是一个列组合单元格，它描述了计算机元件的一些相关属性。

对于标准表格，一个列组合表格只有一个属性单元格，但对于非标准表格，列组合表格属性单元格就可能有多个。根据假设2和3，我们得到如下规则：

规则1：列组合表格的属性单元格一定存在于该列的上方单元格中，如果有多个属性单元格，则它们是连续的，而且列宽度不同。

例如，图3(a)和(b)中全部列构成一个列组合列，第一行和第二行中各个单元格是属性单元格，相邻的两个属性单元格宽度不同。

定义12：如果属性A的属性单元格U_A在属性B的属性单元格U_B的下方，则称U_A从属于U_B，记为

U_{A} &Subset; U_{B}

。如果U_A和U_B是相邻的，则称U_B是U_A的父属性，U_A是U_B的子属性。

例如，图3中第二行各个单元格从属于第一行相应的单元格。

定义13：值单元格的全部语义关系的描述称为该值单元格的内容。

根据属性作用域可得规则2如下：

规则2：如果U_A是U_B的子属性，则它的一个值单元格U_Ai的内容既包含属性A的取值，同时还包含属性B的取值。

例如，图3中单元格U(3，4，0，1)可见内容为“M27_512”，它是属性“ProductID”的取值，同时，因为“ProductID”具有父属性“PC Component”，所以U(3，4，0，1)还有取值“Memory”。如果图3中的表格是对计算机元件的描述，则该单元格内容就是描述一种PC Component＝Memory，ProductID＝M27_512的元件。

在实际应用中，大部分表格都属于规范的列或行组合单元格，但也会使用一些不太规范的组合单元格，而且变化的形式多种多样。例如图4在列的方向上违背了假设2，而图5第2行第2列的从属关系不明。对于文档查询，如果将父子关系扩大，则一般不会遗漏相关文档，查全率不受影响，但查准率降低。

步骤109：建立属性之间层次关系，形成表格语义树。

因为表格坐标和各个单元格之间建立了对应关系，所以可以根据上面叙述的方法和规则对HTML文件进行搜索，确定单元格之间的相对几何位置和大小关系，进而确定单元格之间的父子关系，形成一个表格内容树。下面用TableToSS系统基本算法流程介绍本方法的实现。

首先读入HTML文件，解码形成DOM树，为表格分析程序提供数据。表格分析步骤如下：

1)在DOM树中寻找以标记符TABLE、TBODY、TR、TH、TD组成的块，并针对该块的数据进行表格分析。即使在块中还存在TABLE标记符，也不对该标记符及其子节点内容展开。

2)在标记符块中循环，计算表格行数n_r和列数n_c。

3)构建表格矩阵M(n_r，n_c)，记录标准单元格与显示单元格之间的关系。

4)按逐行或逐列方式对表格进行遍历，建立每个单元格的父子关系。没有父节点的属性单元格将其父节点设为表格节点，即根结点。

5)如果单元格中存在TABLE标记符，则递归调用本分析过程，并将其变成当前单元格的一部分。

表格分析完毕则形成了一个以表格结点为根节点的表格内容树，因为它反映了表格的语义内容，所以也称之为表格语义树或者表格语义脉络树。

步骤110：进行语义脉络匹配。

当用户在进行文档检索时输入一个语义脉络(称为查询语义脉络)，则系统将对所有的文档中表格数据进行检验，即检验表格中是否包含用户输入的语义脉络。对步骤109所建立的表格中单元格之间的关系进行遍历，如果在表格语义树的一个从根节点到叶节点的路径中存在查询语义脉络中的所用关键词，而且满足顺序关系，则认为该表格与用户输入的语义脉络相匹配，表格所属的文档就是符合检索条件的文档。

语义脉络匹配需要考虑列和行的组合作用，即任何一个单元格均存在两个父系：列方向和行方向父系，在进行语义脉络匹配时需要将所有的内容合并。两个父系的合并同样也可能造成查准率的降低，但保证了查全率。

本具体实施步骤特别适合HTML表格的处理，也可用于一般的没有斜线的表格处理。因为考虑了多层父子关系，配合语义脉络的使用，即使对表格制作者的语义理解存在一定的歧义或误解，但由于一般情况下人们在制作表格时均遵守自上而下，从左向右的规则，即符合作用域和父子关系规则，虽然会引入一些不满足语义脉络检索条件的文档，但却保证了比较高的查全率。为了保证不出现或少出现遗漏，还可以放宽假定2的条件，允许在值单元格区域中出现属性单元格。

对本领域的普通技术人员而言，本发明所涉及的数据结构和算法是计算机程序开发中的基本数据结构和算法，可以在一般的计算机系统中实现，举例而言，本发明人使用高级程序设计语言VC++开发的TableToSS系统实现了该算法并对一些网页和参考论文上提供的表格进行了分析，取得了较好的效果，其数据结构和算法也可以在VB、Java等语言程序上实现。

以上所述，仅为本发明其中的较佳实施例而已，并非用来限制本发明的实施范围；即凡依本发明申请专利范围所作的均等变化与修饰，皆为本发明专利范围所涵盖。

Claims

1.一种HTML表格的语义分析方法，应用于HTML表格的语义脉络分析，特别是网络文档的检索，其特征是：定义表格坐标系并用表格矩阵来记录，定义单元格对象来表示显示单元格，定义列或行组合单元并以列或行组合单元为分析对象，确定表格中属性及其取值的特征，以单元格之间的几何位置关系设定每个属性的作用域及建立属性及其取值的识别规则，通过使用表格矩阵对表格单元格进行遍历，建立所有单元格之间的关系，使相关的单元格之间形成了语义脉络关系。

2.根据权利要求1所述的HTML表格的语义分析方法，其特征是：表格坐标系的坐标取值范围根据HTML中的TABLE标记块的行、列参数确定，表格矩阵是对表格坐标系的记录。

3.根据权利要求1所述的HTML表格的语义分析方法，其特征是：单元格对象是用户在网页上所能看到的内容，是表格坐标系中的一块矩形区域，其范围用表格矩阵描述。

4.根据权利要求1所述的HTML表格的语义分析方法，其特征是：列或行组合单元是按照表格坐标系y或x方向所形成的矩形区域。

5.根据权利要求1所述的HTML表格的语义分析方法，其特征是：表格中属性及其取值是按照列或行组合单元格方式进行的，每个属性的作用域是它下面或右边所有的相等宽度或高度的单元格。

6.根据权利要求1所述的HTML表格的语义分析方法，其特征是：属性单元格的上方或左方没有相同宽度或高度的单元格，在同一个列或行组合单元格中不同的属性具有不同的宽度或高度。

7.根据权利要求1所述的HTML表格的语义分析方法，其特征是：两个相邻的不同属性之间存在父子关系，上面或左边的属性为下面或右边属性的父属性。

8.根据权利要求1所述的HTML表格的语义分析方法，其特征是：在对表格坐标系进行遍历时通过单元格之间的坐标关系确定相对几何位置和大小关系，进而确定单元格之间的父子关系，形成一个表格内容树。

9.根据权利要求8所述的HTML表格的语义分析方法，其特征是：表格内容树表达了表格中包含的语义关系，其中任意一条从根节点到叶结点的路径表达了表格的一个语义脉络，当用户输入的查询语义脉络与之匹配时表格所属文档即是用户所需要检索的文档。