CN105045769A

CN105045769A - 一种基于结构识别的Web表格信息抽取方法

Info

Publication number: CN105045769A
Application number: CN201510287215.0A
Authority: CN
Inventors: 刘�东; 朱鸿乔; 李新明; 邢维艳; 李艺; 李亢; 王寿彪; 饶磊; 闫雪飞; 于少波; 李强
Original assignee: PLA Equipment College
Current assignee: PLA Equipment College
Priority date: 2015-06-01
Filing date: 2015-06-01
Publication date: 2015-11-11

Abstract

本发明涉及一种基于结构识别的Web表格信息抽取方法。在该方法过程中，表格结构的识别采用了两种渐进式的方法进行。首先采用了一组启发式的规则对常见的几种类型的表格进行结构的判断，从而确定了Web中较大一部分表格的结构类型；对通过启发式规则未能识别的表格，采用字符串匹配的方式进行，被匹配的单元格被限定在ULC(upper-left-cell)所在的行或列中，这样就可以大大减少需要进行字符串匹配的内容，提高了匹配和识别的效率。最后，从总的两个维度的表格出发，分别提出了在信息抽取过程中合成单元格的处理策略问题，可以在保证抽取结果中数据间的关系不被破坏的基础上，尽可能的降低冗余数据的产生。

Description

一种基于结构识别的Web表格信息抽取方法

技术领域

本发明属于Web信息抽取技术领域，可用于对Web文档中表格信息的抽取和存储，特别是对数据间关系难以理解的复杂Web表格的信息抽取问题具有较好的处理能力。

背景技术

信息抽取是数据挖掘领域的一个重要研究方向，海量存在的Web资源又使得面向Web的信息抽取成为当前该领域的研究热点。在形式各异的Web信息中，表格(Tables)是Web文档中一种重要的数据表现形式，通常用于组织所描述对象的基本信息、统计数据等。由于这些结构化的数据具有的较高的使用价值，因此进行表格数据抽取的研究具有重要的意义。然而，HTML标记语言主要用于对数据进行展示，不具有对数据进行描述的能力。Web表格结构往往体现着数据间的关系，这种结构的解读依赖于用户的理解，而应用程序则无法直接读懂这些信息。在将复杂结构的Web表格转化成面向存储的逻辑模型时，需要考虑单元格的类型、数据间的关联约束等问题。因此，如何解决这些问题来正确理解表格结构就成为对表格信息进行准确抽取的关键。

早在1996年，《GraphicsRecognitionMethodsandApplications》中的一篇文章《Model-basedanalysisofprintedtables》就曾对表头单元格、属性单元格和数据单元格进行了层次上的划分，并通过label标记的方法对不同逻辑层次的单元格进行了表示。但是该研究的对象仅限于出版物中的表格，这类规范化程度较高的表格和格式约束较少的Web表格存在较大差异。此外，文中提出的单元格层次的划分方法在实际的处理过程中难度较大，并不适合通过编程语言进行操作。在2001年PacificAssociationforComputationalLinguistics的论文集中，《ExtractionontologiesfromWorldWideWebviaHTMLtables》一文提出了一种基于字符串比对的表格结构识别方法，但是该方法没有充分利用表格自身的特点，并且进行结构识别时需要比对的字符串较多，这就对表格结构识别的效率造成了影响。第八届《Informationandknowledgemanagement》国际会议中的一篇文章《AnautomatedapproachforretrievinghierarchicaldatafromHTMLtables》介绍了两种类型的数据层次的概念，并提出了一种基于表格中数据层次关系的内容树(contenttree，CT)的构建方法。国内在Web表格信息抽取领域的研究也取得了一定的进展，合肥工业大学2012年度的一篇硕士学位论文《基于Web结构的表格信息抽取研究》提出了一种基于路径模式挖掘的Web表格信息抽取方法；而燕山大学2008年度的硕士学位论文《基于表格结构的Web信息提取技术研究》则提出了一种基于HTML结构树的列表信息提取方法。但是表格结构识别方面的研究大多集中在通过本体的方法进行，和国外的研究相比思路较为单一、方法的可操作性不强。表格的结构模型直接决定着信息的抽取策略，不仅要能体现原表格中数据间的关系，又要尽可能减少冗余数据的产生。其中涉及到的一个主要问题就是如何使表格更加规整化，即如何处理存在rowspan和colspan情况的单元格。目前采用的最主要的方法就是如Proceedingsofthe18^thconferenceonComputationallinguistics-Volume1.AssociationforComputationalLinguistics中的一篇文章《MiningtablesfromlargescaleHTMLtexts》所介绍的“将单元格按照rowspan和colspan的值划分成相应数量的基本单元格，并将原单元格中的内容复制到这些单元格中”的方法。这种方法虽然能在一定程度上保留原数据间的关系，但是不可避免的会造成大量重复数据(冗余数据)的出现。

本发明从表格自身所隐含的规则出发，探寻一种简单、有效的表格结构识别方法，以便于对Web表格信息进行准确抽取；并通过对两种维度表格特征的分析提出新的、面向存储的值单元格处理方法，可以在一定程度上减少冗余数据的产生。

发明内容

本发明的目的是为了解决Web中表格信息的抽取问题，尤其是复杂表格的信息抽取策略。通常在对后者进行信息抽取时，数据间关系的难以理解会对抽取结果的准确性造成影响。

本发明的技术方案如下：

对于一个给定的Web表格，首先经过启发式规则对其结构特征进行判断。如果该Web表格的结构类型经过启发式规则未能被判断出，再通过字符串匹配的方法来区分属性单元格区域和值单元格区域，从而确定表格的结构类型。根据表格结构类型的判断结果，一维表格中的值单元格按照所对应的属性单元格的rowspan或colspan的值(属性单元格位于属性行中，则根据属性单元格的colspan.value()；属性单元格位于属性列中，则根据属性单元格的rowspan.value())进行处理；二维表格中的值单元格按照其所对应的两个属性单元格的rowspan和colspan的值进行处理，两个属性单元格所需考虑的情况同一维表格的处理方式。表1和表2分别展示了一维表格和二维表格的实例。

表1一维表格实例

表2ULC为空的二维表格的实例

本发明的核心是：提出了一种快速判断Web表格结构的方法，并针对两种结构类型的表格制定了相应的抽取策略，该策略使得抽取结果在保证原有的数据间关系的基础上尽可能地减少存储时冗余数据的产生。

本发明的关键之一是：归纳出了快速识别Web表格结构的启发式规则。即当表格的左上角的单元格为空时，表格为二维表格。首先通过这一规则对Web表格的结构类型进行判断；在该规则未能适用的情况下，可根据<th>标签进行表格结构的识别。基于的规则为：如果表格中存在<th>标签构造的属性单元格，则该表格中所有的属性单元格均由<th>标签构造而成。

本发明的关键之二是：采用字符串编辑距离(EditDistance，也称为LevenshteinDistance)对单元格中内容字符串间的相似度进行计算。给出了通过多次实验得出的区分属性字符串和值字符串间相似度的阈值；需要进行相似度计算的单元格被限定在ULC(upper-left-cell，左上角的单元格)所在的行和列中。

本发明关键之三是：对一维表格(包括横向展开和纵向展开两种情况)，按照属性单元格的cell.rowspan.value()或cell.colspan.value()对所在列或行中的值单元格进行切分。基于的考虑是，合成的值单元格的处理方式依赖于其所对应的属性单元格。即尽管一个值单元格可以同时对应多个属性单元格，但是用户在阅读表格的时候通常还是按照一个“属性”对应一个“值”的方式去理解。如果该属性单元格位于属性行中，则只考虑其rowspan的值。而如果该属性单元格位于属性列中，则只需考虑其colspan的值；对于二维表格(包括ULC为空或不为空的两种情况)，则需要分别考虑所在行或列中属性单元格的colspan和rowspan的值对该值单元格相应值的约束。

约束条件一：

C_ij.rowspan≤C_i1.rowspan

(1)

(2≤j≤Table.column.size())

约束条件二：

C_ij.colspan≤C_1j.colspan

(2)

(2≤i≤Table.row.size())

本发明的有益效果：确定Web表格结构是正确理解表格中数据间关系的关键，将直接影响到这类表格抽取结果的准确性。本发明总结出了两种判断表格结构的启发式规则可对部分表格的结构进行快速地判断。而在对未能被启发式规则识别的表格进行字符串比对时，本发明根据表格的特点，选择了ULC所在行或列中的单元格进行计算，从而减少了在进行表格结构识别时需要进行字符串匹配的次数，和其他通过字符串匹配来识别表格结构的方法相比降低了计算量，以达到快速识别表格结构的目的。此外，针对两种结构类型表格的抽取策略将会有效减少冗余数据的产生。

附图说明

图1常见的表格结构示例

图中：黑色区域为属性单元格区域，白色区域为值单元格区域；(a)为非“属性-值”类型表格，(b)为单向展开的一维表格，(c)为ULC为空的二维表格，(d)为ULC不为空的二维表格。

图2Web表格信息抽取流程

图3一维表格逻辑模型构建过程

图中：(a)为表1的抽象化模型，(b)为(a)中单元格对应的结构树，(c)为表格数据的存储效果。

图4二维表格逻辑模型构建过程

图中：(a)为抽象化的ULC为空的二维表格，(b)为通过属性坐标表示的单元格，(c)为表格数据的存储效果。

图5基于结构识别的Web表格信息的抽取方法的流程

图6表格标签间的相互关系

图中：实线箭头表示标签间的嵌套关系，箭头末端的标签必须嵌套在所指向的标签内使用；虚线箭头表示同级标签间标签使用的先后次序关系，箭头所指向的标签通常在尾部标签之前使用。

具体实施方式

本发明提出了一种基于结构识别的Web表格信息抽取方法。该方法能够在快速、准确识别表格结构的基础上对表格信息进行正确抽取，并且能够有效减少抽取结果中冗余数据的产生。方法的完整流程如图5所示。

本方法的运行包括如下步骤：

1.Web表格的结构识别

①启发式规则(给定一个Web表格)

获取表格的列数，Get_Table.column.size()；

如果Table.column.size()为2或3，并且Table.row.size()远大于列数(通常为2倍以上)，则表格的第一列为属性单元格；

//同样的规则在列数远大于行数的表格中也适用，而表格的第一行则为属性行。

对于不符合上面判断标准的表格，则再根据表格中<th>标签的使用情况来判定。如果表格中仅有一个<th>标签，则该单元格为表格标题单元格。如果该标签的数量大于1，则由<th>标签构造而成的单元格为属性单元格。进而根据属性单元格的分布情况确定表格的结构类型。

②基于字符串匹配的结构识别方法

如果经过启发式规则无法直接识别表格的结构，则需要进一步通过字符串匹配的方法识别出表格中的属性单元格和值单元格，步骤如下：

假设相邻属性单元格中的内容字符串分别为s₁和s₂，编辑距离d(s₁，s₂)表示将s₁变成s₂所需要的点突变的最少次数。主要的计算过程为：

d(s₁-+l_1，s2-+l₂)＝

(3)

min(d(s_1-，s_2-)+p(l₁，l₂)，d(s_1-+l₁，s_2-)+1，d(s_1-，s_2-+l₂)+1)

其中，l₁和l₂分别是s₁(＝s₁-+l₁)和s₂(＝s₂-+l₂)的最后一个字符串。当l₁＝l₂，p(l₁，l₂)＝0；否则p(l₁，l₂)＝1。采用归一化编辑距离(NormalizedEditDistance，ND(s₁，s₂))作为衡量两个字符串间相似度的指标：

ND (s_{1}, s_{2}) = \frac{d (s_{1}, s_{2})}{(| s_{1} | + | s_{2} |) / 2} - - - (4)

其中，|s₁|和|s₂|分别为字符串s₁和s₂的长度。由于合成单元格可以看作是几个相同单元格的组合，因此在对其进行相似度计算时需要首先将其划分成基本单元格，并且这些基本单元格内容间的相似度为1。用FrowSim表示属性行中除ULC外的单元格中内容字符串间的平均相似度，n表示头属性行中单元格的个数，计算公式为：

FrowSim = \frac{Σ_{i = 1}^{n - 2} ND (s_{i}, s_{i + 1})}{n - 2} - - - (5)

属性列中字符串的平均相似度LcolSim同样可以用上述方法求得。实验采集50组不同属性下(如日期、型号、速度等)的属性值字符串作为实验样本，计算出在视觉上具有相同特征的同组属性值字符间的相似度，实验结果如下：

表3字符串相似度计算统计结果

由于算法没有考虑同种字符间的相似性(如“45”和“13”间的相似度为0)，因此部分同组字符串间的相似性还应高于实验结果。而不同属性下的字符串间相似度的值基本都在10^-2数量级以下，和同一属性下字符串间的相似度相差很大。为了充分识别同组字符串，并有效地保证识别的准确率，本文拟将相似度的阈值定为0.3，这个数值在实验中被证明能够有效地区分出同一属性下的内容字符串。

2.表格结构确定后的信息抽取

①一维表格的信息抽取

由于一维表格具有单向展开的特点，因此可以借助结构树的方法来理解表格中单元格间的逻辑关系。本发明以一个Row-wise(按行展开)表格为例进行说明，该方法同样适应于Column-wise表格。为了表述方便，图3表格中的数字既表示单元格的编号，又表示单元格中的内容。

在对一维表格进行处理时只需从一个维度进行考虑，按照约束条件(1)对如图3(a)中的合成单元格进行处理，“武器”属性单元格下所对应的三个值单元格均存在COLSPAN的情况，只做横向切割，即将值单元格的rowspan值变为1，而不从纵向的角度进行考虑。如果将其分割成两列完全一样的单元格，就会造成冗余数据的产生。这种冗余数据的数据量是可以衡量的，如Row-wise表格中一个合成单元格所产生的冗余的数据量为cell.colspan-1；对应的，Column-wise表格中一个合成单元格所产生的冗余数据量为cell.rowspan-1。

在对抽取结果进行存储时，分别将叶子节点(图3中3、5、7、8单元格)到其所对应的属性节点(即第二层节点)的路径按行进行存储。

②二维表格的信息抽取

在二维表格中，一个属性值同时由两个属性决定。如果将属性行和属性列分别看作是直角坐标系的x轴和y轴，则值单元格的表示方式则如图4(c)所示。在这种情况下，表格中的值单元格需要同时满足约束条件(1)和(2)。因此在处理合成单元格时，需要同时考虑其COLSPAN和ROWSPAN的因素。

如果C^m2 _ij，C^m3 _ij...C^mn _ij(n＝row(m).columnsize())中，单元格的ROWSPAN的值均不小于C^m1 _ij.rowspan()，则以C^m1 _ij.rowspan()为基准对ROWSPAN的值大于C^m1 _ij.rowspan()的单元格进行横向切分；当C^m2 _ij，C^m3 _ij...C^mn _ij(n＝row(m).column.size())中存在ROWSPAN的值小于C^m1 _ij.rowspan()的时候，就以ROWSPAN的值最小的单元格为基准对该列的表格进行横向切分。表格中各列的处理方式同行中单元格的处理方式相同，判断的标准则变为单元格的COLSPAN的值。

Claims

1.一种基于结构识别的Web表格信息抽取方法，其特征是该方法步骤如下：

首先通过启发式规则对表格的结构进行识别，启发式规则为：①表格左上角的单元格的英文名称为upper-left-cell，缩写为ULC，当该单元格中的内容为空时，表格为二维表格，当该单元格中的内容不为空且表格中的内容存在属性-值关系时，ULC为属性单元格；②当表格中由<th>标签构造的单元格的个数大于2且这些单元格位于表格中的同一行或同一列时，这些单元格是表格的属性单元格；对于符合启发式规则的表格，当识别出的属性区域仅按行展开，则表格为一维表格，当属性区域同时按行和按列展开，则表格为二维表格；

一维表格

二维表格

对于通过步骤1不能进行结构识别的表格，再根据表格中同一属性下的值在内容上具有相似性这一特点，采用字符串编辑距离的方法对单元格中内容字符串间的相似度进行计算，进而区分出表格中的属性单元格区域和值单元格区域；通过对50组不同属性下的属性值组进行内容相似度的计算，得出同一属性下属性值间相似度的阈值为0.3；为了减少进行表格结构识别时相似度计算的次数，根据步骤1中的启发式规则①和表格右下角单元格为值单元格这一特点，仅对ULC和右下角单元格所在的行和列中的单元格进行内容相似度计算，当相似度的值大于0.3，两个单元格中的值同属一个属性，反之则不属于；在进行相似度计算后，当识别出的属性区域仅按行展开，则表格为一维表格，当属性区域同时按行和按列展开，则表格为二维表格；

通过上述两步骤之后即可判定表格的结构类型，对于一维表格中横向展开的类型，当值单元格C₂的属性colspan的值大于其所在行中属性单元格C₁的属性colspan的值，则将该值单元格进行分割，得到的两个新的单元格的rowspan的值不变，colspan的值分别为C₁.colspan.value、C₂.colspan.value-C₁.colspan.value，否则不对该值单元格进行处理；对于一维表格中纵向展开的类型，当值单元格C₂的属性rowspan的值大于其所在列中属性单元格C₁的属性rowspan的值，则将该值单元格进行分割，得到的两个新的单元格colspan的值不变，rowspan的值分别为C₁.rowspan.value、C₂.rowspan.value-C₁.rowspan.value，否则不对该值单元格进行处理；对于二维表格，包括ULC为空或不为空的两种情况，分别根据值单元格所在行中的属性单元格的colspan的值和所在列中的单元格的rowspan的值对该值单元格进行分割，分割的方法同一维表格的处理过程。