CN103198069A

CN103198069A - 抽取关系型表格的方法和装置

Info

Publication number: CN103198069A
Application number: CN2012100034808A
Authority: CN
Inventors: 孙军; 谢宣松; 姜珊珊; 郑继川
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 2012-01-06
Filing date: 2012-01-06
Publication date: 2013-07-10

Abstract

提供了一种从非结构化文档抽取关系型表格的方法和装置。该方法包括：检测非结构化文档中的表格，以获得表格；以及确定指示表格中的对象标识符部分、属性名部分和属性值部分的表格布局。根据本发明实施例的抽取关系型表格的方法和装置，并不预先假定每个数据元组是表格中的行，而是可以自动确定表格中的对象标识符部分、属性名部分和属性值部分的表格布局。

Description

抽取关系型表格的方法和装置

技术领域

本发明总体地涉及信息处理和信息抽取领域，更具体地涉及从非结构化文档中抽取关系型表格的方法和装置。

背景技术

目前，存在大量的电子文档，例如，互联网上的各种描述产品的文章等。对各种文档进行信息处理、分析、统计等，正成为业界研究和开发的热点。

文档可以分为结构化文档和非结构化的文档。

结构化文档一般是按照某种预定义的文档对象模型构造的文档，其已经给文档定义了框架，使得各部分的作用一目了然，例如通过一些数据库定义语言或面向对象的编程语言等构建的文档可以称为结构化文档。

在本文中，将除了结构化文档外的各种文档统称为非结构化文档。非结构化文档可以分为半结构化文档和无结构文档。网页等诸如HTML或XML格式的文档常被人称为半结构化文档或半结构化数据，从其中的一些标签语言即可以知道所描述对象的属性和值。无结构文档类似于自然语言形式，例如我们常见的后缀为txt的纯文本文档即为一种典型的无结构文档。此外，word格式和pdf格式的文档中也不存在便于理解文章所描述的主体和具体属性的信息，因此也可视为无结构文档。

在非结构化文档存在海量表格，其中的关系型表格通常含有丰富的有用信息。所谓关系型表格是就其对现实世界中的事物间关系的模型而命名，一般是二维表格，其中含有多个对象，每个对象具有诸多属性和对应的属性值。图1示出了Web网页中的一个关系型表格的例子。

互联网中有很多含关系型数据的网页，比如说产品参数对比表格网页。以网页为例，自动从网页中抽取关系型表格信息可以用来更好地构建此类网页的索引，有助于搜索。所抽取的海量关系型表格可以用于科研、工程、统计、策略制定、市场调研等，用以提供量化数据。

已经存在一些从非结构化文档中检测表格的技术。

在文献1，A Machine Learning B ased Approach for Table Detection on TheWeb，Proceedings of the Eleventh International World Wide Web Conference(WWW2002)中，描述了一种基于监督的机器学习方法，在训练数据之后，来把每个给定的表格分类成真实的表格或者非真实的表格。

在文献2，Uncovering the Relational Web，Proceedings of the 11thInternational Workshop on Web and Databases(WebDB 2008)中，描述了从大的网页库中过滤关系表的简单的方法，其假设每个数据元组是表格中的行，还试图恢复列的标签信息和类型信息。

在文献3，US7590647(B2)-Method for extracting，interpreting andstandardizing tabular data from unstructured documents中，描述了一个系统，方法，计算机程序，能够自动地从非结构化文档中识别，解析，和解释表格数据。该技术对于表格解释，使用标准模板，包含一个标准化数据域的集合；其次，该技术假设每个数据元组是表格中的行。

发明内容

鉴于现有技术中的上述问题，提出了本发明。

根据本发明的一个方面，提供了一种从非结构化文档中抽取关系型表格的方法，可以包括：检测非结构化文档中的表格，以获得表格；以及确定指示表格中的对象标识符部分、属性名部分和属性值部分的表格布局。

所述非结构化文档可以是网页，以及可以通过解析网页并选择被用来显示表格数据的DOM节点来得到表格。

抽取关系型表格的方法还可以包括在确定表格布局之前，规范化所检测的表格的内容。

规范化所检测的表格的内容可以包括：对于表格的每个表格单元格计算一段文本，此文本可以为空。

对于表格的每个表格单元格计算一段文本可以包括：对于每个无文本节点但含图像节点的单元格，基于图像节点的特征确定一段文本。

该抽取关系型表格的方法还可以包括：在确定表格布局之前，过滤表格中的内容，以去除信息含量低的数据。

过滤表格中的内容可以包括以下操作中的至少一种：计算表示行的信息含量的行信息量分数，并去除行信息量分数低的行；计算表示列的信息含量的列信息量分数，并去除列信息量分数低的列；计算表示整个表格的信息含量的表格信息量分数，并且如果整个表格的信息量分数低于预定阈值，则丢弃该表格。

确定表格布局可以包括：确定表征表格中候选对象标识符部分、候选属性名部分和候选属性值部分的布局的各种候选表格布局；计算各种候选表格布局的一致性分数；基于所计算的各种候选表格布局的一致性分数，确定表格布局，从而确定了表格中的对象标识符部分、属性名部分和属性值部分。

可以至少基于下列要素中的一个或几个计算各种候选表格布局的一致性分数：1)对象标识符是否唯一；2)属性名是否唯一；3)各行之间的相似度分数和各列之间的相似度分数；4)每行的各个单元格间数据的类型一致性，以及每列的各个单元格间数据的类型一致性。

根据本发明实施例的一种从非结构化文档抽取关系型表格的装置，可以包括：表格检测部分，检测非结构化文档中的表格，以获得表格；以及表格布局确定部分，确定指明表格中的对象标识符部分、属性名部分和属性值部分的表格布局。

根据本发明实施例的抽取关系型表格的方法和装置，并不预先假定每个数据元组是表格中的行，而是可以自动确定表格中的对象标识符部分、属性名部分和属性值部分的表格布局。

此外，根据本发明实施例的抽取关系型表格的方法和装置，通过过滤表格数据，从而去除噪声信息，提高抽取表格数据的速率和准确性。

此外，根据本发明实施例的抽取关系型表格的方法和装置，通过规范化表格数据，可以从表格的图像中计算文本，从而抽取图像中的有用信息。

根据本发明实施例的一种从非结构化文档抽取关系型表格的方法，可以包括：检测非结构化文档中的表格，以获得表格；规范化表格数据；过滤表格数据；以及确定指示表格中的对象标识符部分、属性名部分和属性值部分的表格布局。

根据本发明实施例的一种从非结构化文档抽取关系型表格的方法，该确定指示表格中的对象标识符部分、属性名部分和属性值部分的表格布局可以包括：计算各行是对象标识符区域的可能性分数以及为属性名区域的可能性分数；选择可能性分数最高的行，并相应地确定该行是对象标识符区域或属性名区域；基于行中对象标识符区域或属性名区域的确定，计算各列为属性名区域或对象标识符区域的可能性分数；选择可能性分数最高的列作为属性名区域或对象标识符区域；以及输出对象标识符区域、属性名区域、属性值区域信息。

根据该从非结构化文档抽取关系型表格的方法，可以一次性确定表格方向和对象标识符区域或属性名区域，可以迅速、准确地确定表格布局。

附图说明

图1示出了Web网页中的一个关系型表格的例子；

图2示出根据本发明一个实施例的抽取关系型表格的方法的整体流程图；

图3示出了一个示例性表格中的对象标识符部分、属性名部分和属性值部分的表格布局；

图4示出了一个表格的各种候选布局的示例。

图5示出了在Web环境下实现图2中步骤S2100的示例性表格获取方法的流程图；

图6示出了从DOM树获得表格的过程的示意图；

图7示出了表格数据规范化的过程的例子；

图8示出了规范化含文本节点的表格单元格的例子；

图9示出了从图像的属性”src”(其表示图像的来源)来确定图像节点的含义的例子；

图10示出了结合图像节点中的“src”和“alt”特征来从图像节点计算文本的例子；

图11示出了进行表格数据过滤的示例性方法的流程图；

图12示意性示出了表格中低信息含量的行和列的例子；

图13示出了根据本发明一个实施例的确定表格布局的示例性方法的流程图；

图14示出了行是对象标识符区域的表格例子；

图15示出了列是对象标识符区域的表格例子；

图16示出了列是对象标识符区域情况下的行间相似度和列间相似度的示意；

图17示出根据本发明另一实施例的确定表格布局的示例性方法的流程图；

图18示出分局本发明实施例的从非结构化文档抽取关系型表格的装置的总体功能性框图；

图19示出了可以实施本发明实施例的网络系统环境示意图；以及

图20是示出按照本发明实施例的从非结构化文档抽取关系型表格的系统的总体硬件框图。

具体实施方式

为了使本领域技术人员更好地理解本发明，下面结合附图和具体实施方式对本发明作进一步详细说明。

将按如下顺序进行描述：

1、关系型表格抽取的整体过程

2、从网页提取表格的示例性方法

3、表格数据规范化

4、表格数据过滤

5、确定表格布局的详细操作

5.1确定表格布局的一个示例性方法

5.2确定表格布局的另一示例性方法

6、系统硬件配置

6.1从非结构化文档抽取关系型表格的功能性装置

6.2网络系统环境

6.3从非结构化文档抽取关系型表格的硬件系统

7、总结

<1、关系型表格抽取的整体过程>

图2是根据本发明一个实施例的抽取关系型表格的方法的整体流程图。

在步骤S2100中，检测非结构化文档中的表格，以获得表格。

具体地，在非结构化文档是网页的情况下，可以通过解析网页生成文档对象模型DOM树、并选择被用来显示表格数据的DOM节点来得到表格。在此过程中，可能涉及到“假表格”的识别和过滤。在HTML中，<TABLE>标签经常用来呈现视觉信息，例如商业站点广告、导航栏或者其他站点的链接等等，不是为了显示关系型数据，而是例如为了让页面美观、易读。另外，为了便于后续处理，可以进行数据规范化处理，例如对图像节点进行处理，将其转换为文本等。后面，将参考图5对从网页中检测表格的示例性方法进行详细描述。

在例如非结构化文档是pdf文档的情况下，在PDF文档的格式说明书中，并没有表格的概念和相应的部件，表格是由线段和例如文字组成。可以解析并建立PDF文档对应的树状结构，进而解析可移植电子文档的内容以获取和表格相关的命令、线条提取单元，用于通过处理这些命令来提取线条和线条位置，用于分析线条的位置关系来提取表格和表格中的内容。

另外，前文介绍的文献3中的检测表格的方法以及任何可以获得非结构化文档中的表格的方法均可以用于本发明。

在步骤S2200中，确定指示表格中的对象标识符部分、属性名部分和属性值部分的表格布局。

对于二维关系型表格，一般地，一个完整的表格由三块区域组成：对象标识符部分，属性名部分和属性值部分。这是对真实世界中事物间关系组织的一种模拟，在真实世界中，一个对象也有一个通常意义上的独特的标识符(名字)，我们将之称为对象标识符；属性名表示这个对象的一些特征和属性，也就是说，它们是这个表的构架；剩下的部分，值，是每个属性的具体值内容。在一个二维关系型表格中，有多行或者多列，而且对象标识符行(或列)和属性名列(或行)之间的关系是正交的。我们将这种是对象标识符或属性名的行(或列)称为标识符行(或列)。

图3示出了一个示例性表格中的对象标识符部分、属性名部分和属性值部分的表格布局或者说表格结构。在该表格中，最左列是属性名区域，第二行是对象标识符区域，这两者之间的右下区域是属性值区域。

而且，在图3所示的表格例子中，除了作为属性名区域的列外的其它每列构成一条记录或所谓的数据元组。在本文中，将这种每列构成一条记录或所谓的数据元组的表格称为列方向表格或者纵向表格，而将每行构成一条记录或所谓的数据元组的表格称为行方向表格或者横向表格。

在现有技术中，一般默认为表格是横向表格。但是，实际上，如图3所示，表格可以是列向表格。也就是说，对象标识符区域可以为行，也可以为列。当然，对应地，也就是说，属性名区域可以为列，也可以为行。

下文中，将一个表格中对象标识符部分，属性名部分和属性值部分的定位称为表格布局。而对象标识符部分，属性名部分和属性值部分的定位的各种可能组合称为表格候选布局，图4示出了一个表格的各种候选布局的示例。

关于确定表格布局，可以存在各种实现方法。

一种实现方法是，首先，确定表格的方向，即是横向表格还是列向表格，例如这可以根据行间相似度和列间相似度来加以判断；然后，基于所确定的表格方向，确定对象标识符和属性名区域，例如，如果确定表格是横向表格，则相当于已经确定了对象标识符区域为列，属性名区域为行，因此接下来需要做的是，确定哪一列是对象标识符区域，哪一行是属性名区域，而这可能通过计算各列作为对象标识符区域的可能性分数，和各行作为属性名区域的可能性分数来进行判定。

替代地，另一种实现方法是，首先从各行中确定可能的标识符行作为候选标识符行，从各列中确定可能的标识符列作为候选标识符列；然后，基于候选标识符行和候选标识符列的各种组合得到候选表格布局，计算候选表格布局的似然性作为可能性分数，基于各个候选表格布局的可能性分数确定表格布局并确定表格方向，从而确定标识符行和标识符列哪个为对象标识符部分，哪个为属性名部分。下面将参考图13描述确定表格布局的示例性方法。

替代地，再一种实现方法是，直接计算各行是对象标识符区域的可能性分数以及是属性名区域的可能性分数，选择最高可能性分数，根据该最高可能性分数是对象标识符区域的可能性分数还是属性名区域的可能性分数，确定具有该最高可能性分数最高的行是对象标识符区域还是属性名区域；进而根据对象标识符区域和属性名区域的正交性，来计算各列为属性名区域或对象标识符区域的可能性分数，基于该可能性分数来确定属性名区域或对象标识符区域。在确定了对象标识符部分、属性名部分之后，表格中的其余部分就是属性值部分。

<2从网页提取表格的示例性方法>

下面参考图5详细描述在Web环境下实现图2中步骤S2100的示例性表格获取方法。

在非结构化文档是网页的情况下，可以通过解析网页并选择被用来显示表格数据的DOM节点来得到表格。

具体地，在步骤S2110中，解析网页，构造DOM树。

DOM，即文档对象模型(Document Object Model)，是一个来自W3C的成熟标准。DOM是一种在浏览器内编程的模型，同时也是XML的主要接口，DOM与语言和平台无关，它是基于树的API，它把所有的数据以父子的节点层次结构装入内存构成一棵树，这些节点的类型可以是元素、文本、属性、注释或其它。它允许开发者读取、创建、删除和编辑XML数据。DOM的一切都是节点，实质上是一些节点的集合。DOM树结构和二叉树很相似，元素的子节点集合就是该元素的分支，但是属性节点不是元素的子节点，它只是描述该元素节点的一些性质而已，属于元素节点结构内部的一部分。

这里，例如可以利用HTML解析器解析网页，并生成DOM树。不过，还可以借助于第三方工具，比如CyberNeko HTML解析器来生成DOM树。本领域技术人员熟知DOM树的构造过程，这里不再赘述。

另一个方案是基于网页生成含计算后式样信息的DOM树。计算后式样，是指原始网页不能简单的依赖HTML就完成所有的解析工作，还可以结合css、javascrpt等其它信息，计算并渲染后得到更精确的网页。首先，从互联网上下载网页，网页包含：HTML文件，附带的CSS文件，Javascript文件，图像文件等等。给定这些网页文件，网络浏览器构造DOM树。工业界有一些主流的网络浏览器，比如Mozilla Firefox，Windows Internet Explorer，GoogleChrome或者Apple Safari。网络浏览器引擎通过分析语法结构来解析HTML代码，构造含计算后式样信息的DOM树，执行一些动态内容(比如Javascript代码)，然后在浏览器窗口里渲染网页。然后用户可以在计算机屏幕上浏览网页。同样地，所构造的DOM树和计算后的式样信息可以通过程序接口被其他程序得到。例如Mozilla提供的XULRunner是一个接口。

在构造完DOM树后，在步骤S2120中，获取具有<TABLE>标签的DOM节点，得到HTML表格。具体地，选择所有HTML标签名为<TABLE>的DOM节点。对于每个选择的DOM节点，解析以此DOM节点为根的DOM子树，并且构造HTML表格。首先，我们可以根据HTML语法(如，HTML标签“tr”与“td”之间的关系)抽取数行记录，它们属于一表格，将该表格称为HTML表格，如图6(b)所示。

在步骤S2130中，将HTML表格转换为单元格矩阵，由此得到表格。具体地，可以根据HTML语法中“span”属性，展开表格单元格，从而HTML表格被转换成一个矩阵，每个矩阵的元素代表一个表格单元格。

图6示出了从DOM树获得表格的过程的示意图。其中，图6(a)表示一颗DOM树，其根节点的标签名为<TABLE>。图6(b)示意性示出了从图6(a)的DOM树抽取记录后得到的HTML表格，图6(c)示意性地示出了单元格矩阵；图6(d)示意性地示出了将各个单元格填充值后的表格。

对如此获取的表格，还可以根据需要进行一些后续处理，例如去噪，去除冗余行等，数据类型转换等。还可以进行表格数据规范化和表格数据过滤等。下面将参考图7-10对表格数据规范化进行详细描述，以及参考图11-12对表格数据过滤进行详细描述。

<3表格数据规范化>

如此获取的表格可能含有各种格式的信息，为此，可选地，为了便于后续的诸如行、列或表格的信息量分数的计算、行内相似度、行间相似度等的计算，可以对表格数据进行规范化。

图7示出了表格数据规范化的过程的例子。利用该示例性方法，可以将所有单元格中的内容规范化为文本。

对于原始表格中的每个表格单元格，计算一段文本。这段文本可能是空的。

在本文中，图像表格单元格的意思是无文本节点但有一个图像节点的表格单元格。基于图像节点的特征，每个图像表格单元格会被转化成一段文本。

如图7所示，在步骤S3100中，从表格中选择一个表格单元格，用于后续规范化处理。

在步骤S3200中，规范化含文本节点的表格单元格的文本。

例如，在web文档的情况下，可以如下规范化含文本节点的一个表格单元格的文本：

a)得到该表格单元格所代表的DOM节点下的所有文本节点；

b)连接这些文本，此步骤即合并在一个单元中的数段文本，一个单元可以根据特定的HTML标签(如“span”，“br”等)来判断，合并的顺序可以是按文本的自然顺序。

c)如果此文本太长，截断此文本。这是因为目标表格单元的文本值，一般不会太长，通过截断太长的文本，使之更规范一些，可以通过文本长度和预定长度阈值的比较来判断文本是否过长。预定长度阈值可以根据经验值设置或者通过学习算法学习得到。此外，可以记录原始长度以供后续计算信息含量之用。

图8示出了规范化含文本节点的表格单元格的例子。可见，该单元格在浏览器上渲染后呈现为文本“35mm Full-frame/Nikon FX”，其对应的html源代码为

经分析得到该单元格中有两段文本，分别为Text0“35mm Full-frame”和Text1“/Nikon FX”，连接后得到了一段文本“35mm Full-frame/Nikon FX”，此即对该单元格内容规范化后的结果文本。

在步骤S3300中，计算图像表格单元格的文本。

在真实的网页中，有很多单元的值是用一些图片来表示的，对这些图节点来说，我们可以通过节点属性的某些值来得到真正的文本。基本上来说，图像节点的特定属性值包括：“alt”、“title”，“src”及“href”等。

作为例子，一种从图像表格单元格计算文本的过程为：

a)根据“src”和“alt”特征来决定图像节点的含义是“是”还是“否”，或者是具体的评分类型的值，如3分，5分等。

b)基于“alt”特征值与上述得到的值来共同决定图像节点的其它含义，如上述评分对应的描述等。

图9示出了从图像的属性”src”(其表示图像的来源)来确定图像节点的含义的例子。在该图像“src”中可知图像的文件名为“no.png”和“yes.png”，由此可以确定表示上面单元格(其在浏览器中渲染为划叉的方块图像)含义的文本为“no”，而下面单元格(其在浏览器中渲染为划勾的方块图像)含义的文本为“yes”。

图10示出了结合图像节点中的“src”和“alt”特征来从图像节点计算文本的例子，该文本表示了一种评分类型的值，其中从src中可以得到3.0，然后从alt中得到对应的描述“very good”。

上述的基于图像节点的“src”和/或“alt”特征计算文本的方法仅为示例。可以根据图像节点的其它特征如“title”(图像标题)、“href”(链接)、“target”等来计算文本。

在步骤S3400中，判断是否还有未处理的表格，如果有，则返回到步骤S3100，否则结束该过程。

经过此表格数据规范化过程，可以从例如表格的图像中抽取有用的可从文本意义上理解的信息，可以增加后续处理的速度和精确性。

<4表格数据过滤>

此外，如此获取的表格可能有些行或列所含信息很少，因此，还可以进行表格数据过滤，以过滤掉某些行或列，而且如果整个表格的信息含量含低，则可以将其作为“假”表格去除。

图12示意性示出了表格中低信息含量的行和列的例子。图12所示的表格，其最左边的列各单元格中值相同，信息含量较低，以及最下边的两行含有的都是相同的到其他站点的链接，信息含量也较低。

可以考虑用信息量分数表示了一行、一列或整个表格的信息等级。诸多因素影响行或列的信息含量，例如，一般地，列号或者行号的列或行信息量较低，包含到其他站点链接的单元格内容信息量较低，空单元很多的列或行信息量较低、各个单元格值均相同的行或列信息量较低，图片单元但是非“Yes”、“No”或评价分数的，行或列信息量较低等等。

作为示例，可以利用公式(1)计算信息量分数：

I_s＝1/(k_eN_e+k_d/N_d+k_lN_l+k_iN_i) (1)

k_e+k_d+k_l+k_i＝1.0

其中，k_e表示空单元的数目，k_d表示不同的值的数目，k_l表示值的长度，以及k_i表示非“Yes”或者“No”或评价分数的图片单元的数目。

图11示出了进行表格数据过滤的示例性方法4000的流程图。

在步骤S4100中，计算表示行的信息含量的行信息量分数。

在步骤S4200中，去除行信息量分数低(例如低于预定行信息量分数阈值)的行。

在步骤S4300中，计算表示列的信息含量的列信息量分数。

在步骤S4400中，去除列信息量分数低(例如低于预定列信息量分数阈值)的列。

在步骤S4500中，计算表示整个表格的信息含量的表格信息量分数。

在步骤S4600中，判断表格信息量分数是否低于预定表格信息量分数阈值，如果是，则前进到步骤S4800，去除该表格，并且过程结束；否则前进到步骤S4700。

在步骤S4700，判断本次循环或迭代是否没有去除行或列，如果是，则过程结束，否则返回到步骤S4100。

通过表格数据过滤处理，可以去除表格中信息含量低的行和列，如果整个表格的信息含量太低的话，此模块还可以去除掉此表格。信息含量高的数据意味着使用简洁清晰的文本去描述属性，并去除冗余和无用信息。

<5确定表格布局的详细操作>

下面将详细描述根据本发明实施例的确定表格布局的示例性方法。

<5.1确定表格布局的一个示例性方法>

图13示出了根据本发明一个实施例的确定表格布局的示例性方法5000的流程图。

首先需要说明的是，对标识符行和标识符列来说，它们是正交的关系，可以对应对象标识符和属性名这两个区域。如果确定对象标识符区域和属性名区域中的一种存在于行中，那么另一种肯定存在于列中，反之亦然。

在步骤S5100，提取候选标识符行。

对于各行，计算其是标识符行的可能性，并提取可能性大于预定阈值的行作为候选标识符行。

在计算一个行是标识符行的可能性时，例如可以考虑如下因素：

a)存在于表格中的位置，越靠近上部，是标识符行可能性越大。例如可以通过如下表达式计算：log(size/(i+1)+e-1)，其中size表示表格大小，i表示该行在第几行，e表示自然对数常数。

b)是否包含一些预定义的描述字段，如“名字/name”，“厂商/manufacture”，“产品/product”，“制造者/maker”等，以及如“属性/attribute”，“规格/specification”，“类型/type”等，这些可以通过预定义来设置，如果包含了，则是行标识符的可能性大。

例如，对于行i，如果根据因素a)计算得到可能性Pia，根据因素b)计算得到可能性Pib，则可以根据公式Pi＝WiaPia+WibPib来算出列i为标识符列的可能性Pj，其中Wia，Wib为加权系数，可以设置Wia+Wib＝1。

在计算了各行的标识符行可能性后，例如可以选取标识符行可能性大于预定标识符行阈值的行作为候选标识符行。

在步骤S5200，提取候选标识符列。

对于各列，计算其是标识符列的可能性，并提取可能性大于预定阈值的列作为候选标识符列。

与计算标识符行的可能性类似，在计算一个列是标识符列的可能性时，例如可以考虑如下因素：

a)其存在于表格的位置，越靠左侧可能性越大，可以通过如下表达式计算：log(size/(i+1)+e-1)，其中size表示表格大小，i表示该列在第几列。

b)是否包含一些预定义的描述字段，如“名字/name”，“厂商/manufacture”，“产品/product”，“制造者/maker”等，以及如“属性/attribute”，“规格/specification”，“类型/type”等，这些可以通过预定义来设置，如果包含了，则是列标识符的可能性大。

例如，对于列j，如果根据因素a)计算得到可能性Pja，根据因素b)计算得到可能性Pjb，则可以根据公式Pj＝WjaPja+WjbPjb来算出列j为标识符列的可能性Pj。其中Wja，Wjb加权系数，可以设置Wja+Wjb＝1。

在计算了各列的标识符列可能性后，例如可以选取标识符列可能性大于预定标识符列阈值的列作为候选标识符列。

在步骤S5300，确定候选表格布局。

基于候选标识符行和候选标识符列的组合，确定候选表格布局。

例如，如果候选标识符行为行1、行2，候选标识符列为列1、列2。则候选表格布局为{行1，列1}，{行2，列1}，{行1，列2}，{行2，列2}，请注意这里并未区分对象标识符区域和属性名区域，即对于候选表格布局{行1，列1}，可能行1是对象标识符区域，列1是属性名区域，或者行1是属性名区域，列1是对象标识符区域。

在步骤S5400，选择一个候选表格布局。

在步骤S5500，计算此候选表格布局的一致性分数，同时判别表格方向。

候选表格布局的一致性分数表征此布局正确的可能性。

候选布局的一致性分数的计算和表格方向判别可以基于几个要素：1)标识符行和标识符列的唯一性程度；2)行之间和列之间相似度分数；3)每行和每列的类型一致性。

1)标识符行和标识符列的唯一性程度；

标识符行/列中的每个单元格中的标识符用于标识一列/行，因此标识符行/列中的每个单元格中的标识符在同一个表中一般是唯一的，这个唯一性程度可以通过字符串相似度来进行判断，即唯一性程度高的一个单元格中的标识符，其与其他单元格中的内容相似度应该低。如果标识符行/列的唯一性程度低，则表明是标识符行/列的可能性低。

字符串ei和ej之间的相似度可以通过如下公式进行：

sim(ei，ej)＝|{wk|wk∈wi & wk∈wj}|/(log(|ei|)+log(|ej|))

其中，变量ei代表对比文本i，变量ej代表对比文本j，sim(ei，ej)是两者的相似程度，作为相似度的分值；|{wk|wk∈wi & wk∈wj}|表示既属于文本wi又属于文本wj的词wk的个数，wi表示文本i的字符集合，wt表示文本j的字符集合，|ei|表示文本i的长度，|ej|表示文本j长度，其和表示两者的总长度。

例如，一个候选标识符行的唯一性程度可以例如如下计算：计算该候选标识符行中的任意两个单元格间的内容彼此的相似度，将所有可能的相似度相加，以此相加结果的倒数作为该候选标识符行的唯一性程度。

类似地，一个候选标识符列的唯一性程度可以例如如下计算：计算该候选标识符列中的任意两个单元格间的内容彼此的相似度，将所有可能的相似度相加，以此相加结果的倒数作为该候选标识符列的唯一性程度。

如果行标识符和列标识符的唯一性程度高，则该候选表格布局的一致性分数高。这里，假设最后求得行标识符和列标识符的唯一性程度为Pu。

2)行之间和列之间相似度分数

一般地，当标识符行是对象标识符区域时，此时属性值区域中，每列表示一个对象，则列和列之间的相似度分数应该较高，而行和行之间的相似度分数应该低。图14示出了行是对象标识符区域的表格例子。

类似地，当标识符列是对象标识符区域时，此时属性值区域中，每行表示一个对象，则行和行之间的相似度分数应该较高，而列和列之间的相似度分数应该低。图15示出了列是对象标识符区域的表格例子。

因此，可以依据属性值区域的行之间和列之间的相似度，来判别表格方向。例如，如图16所示的表格示例中，因为在属性值区域行之间相似度高，因此判别此表格为横向表格。即，列标识符为对象标识符区域，行标识符为属性名区域。

而且，在计算候选表格布局的一致性分数时，可以考虑行间和列间相似度的大小。

3)每行和每列的类型一致性

一般情况下，如在现实世界中，各个对象的同一属性的值应该具有类型一致性。

因此，在如上确定了表格方向后，可以根据各个对象的同一属性的值之间的类型是否一致来进一步验证表格方向判断正确与否，以及作为表格布局一致性分数计算的一个考虑要素。

例如，如图16所示的表格中，在属性Price(USD)的属性值列，其数据类型应该都是数值，而在属性Region的属性值列，其数据类型应该都是字符串。如果这样的类型一致性高，则表格布局的一致性分数高，否则表格的一致性分数低。

关于行(或列)的类型判断，可以通过正则表达式进行，一般来说，有判断是否是数字，是否是纯非数字字符，以及与某些符号的混合等，以下是一些正则表达式示例：

(″([0-9]+[A-z]+)+[0-9]*″)；

(″([A-z]+[0-9]+)+[A-z]*″)；

(″([0-9]+[-]{0，1}[A-z]+[-]{0，1})+[0-9]*″)；

(″([A-z]+[-]{0，1}[0-9]+[-]{0，1})+[A-z]*″)。

可以综合上述的1)标识符行和标识符列的唯一性程度；2)行之间和列之间相似度分数；3)每行和每列的类型一致性各要素对候选表格布局一致性分数的贡献，来得到最后的候选表格布局的一致性分数。

例如，假设标识符行和标识符列的唯一性程度确定候选表格布局的一致性分数为Pu，而由行之间和列之间相似度分数确定候选表格布局的一致性分数为Ps，以及由每行和每列的类型一致性确定候选表格布局的一致性分数为Pc。则可以根据例如公式P＝WuPu+WsPs+WcPc来确定候选表格布局的一致性分数P，其中Wu，Ws和Wc分别为标识符行和标识符列的唯一性程度、行之间和列之间相似度分数、每行和每列的类型一致性之间在候选表格布局的一致性分数中的加权系数，且Wu+Ws+Wc＝1。

在步骤S5600，判断是否还有未处理的候选表格布局。如果是，转到步骤S5400，否则前进到步骤S5700.

在步骤S5700，基于各个候选表格布局的一致性分数和表格方向识别结果，确定表格布局。具体地，例如，选择一致性分数最高的候选表格布局，并结合该候选表格布局的方向识别结果，确定表格布局，即确定了对象标识符区域、属性名区域和属性值区域。

在上述根据本发明实施例的表格布局确定方法中，基于候选标识符行和候选标识符列的抽取，得到各种候选表格布局，通过计算候选表格布局的一致性分数并同时判断表格方向，实现了确定最终表格布局的任务。本实施例的方法，并不预先假定表格是横向的，因此可以更精确地提取表格的对象标识符区域、属性名区域和属性值区域。

不过上述方法仅为一个示例，本发明并不局限于此，本领域技术人员可以根据需要进行修改或替换。

例如，在提取候选标识符行或列时，可以不仅如上所述地考虑其在表格中的位置和其所包含的预定义描述字段，而且同样计算其唯一性程度。

再例如，在计算候选表格布局的一致性分数和判别表格方向时，可以根据对象标识符和属性名之间的特征来加以区别。例如，其它可以进一步用来区分两者的规则有：

a)两者文本本身的规则不一样，对象标识符一般是中英文字、数字、符号等混合形式，如“理光CX3”，“苹果iPhone4S”，而属性名一般是纯文字，如“价格”，“高度”等。

b)对象标识符含专有名词的可能性高，如“富士”，“佳能”等，而属姓名则是通用词多些。

另外，在上面描述计算候选表格布局的一致性分数时，是按照先计算行间和列间相似度，然后计算每行和每列的类型一致性的顺序加以描述的。但是本发明并不局限于固定的顺序，而是例如，可以先计算每行和每列的类型一致性，然后再计算行间和列间相似度，或者两者可以并行进行。

<5.2确定表格布局的另一示例性方法>

图17示出根据本发明另一实施例的确定表格布局的示例性方法6000的流程图。

在步骤S6100中，计算各行是对象标识符区域的可能性分数以及为属性名区域的可能性分数。

1.计算一行是对象标识符区域的可能性分数

如前所述，在计算一行为对象标识符区域的可能性分数时，可以考虑如下因素：

a)存在于表格中的位置，越靠近上部，是对象标识符行可能性越大。例如可以通过如下表达式计算：log(size/(i+1)+e-1)，其中size表示表格大小，i表示该行在第几行，e表示自然对数常数。

b)该标识符行中的各个单元格中的内容在表格中的唯一性程度，上文在参考图13描述时，描述了考虑行内的单元格之间的相似度来评价该行的唯一性，不过附加地，还可以考虑该标识符行和其他行之间的相似度，作为标识符行的行一般与其他行的相似度较低。

c)是否包含一些预定义的描述字段，如“名字/name”，“厂商/manufacture”，“产品/product”，“制造者/maker”等，这些可以通过预定义来设置，如果包含了，则可能是对象标识符的可能性大。

d)除了此行外，其它行之间的数据类型的一致性，其它行之间的数据类型越一致，该行可能是对象标识符区域的可能性越大。

e)除了此行数据外，列之间相似度，列之间的相似度越大，该行可能是对象标识符区域的可能性越大。

f)该行是否是中英文字、数字、符号等混合形式，如果是，其为对象标识符区域的可能性增大。

g)该行内是否专有名词，如“富士”，“佳能”等，如果是，其为对象标识符区域的可能性增大。

2.计算一行是对象标识符区域的可能性分数

在计算一行为属性名区域的可能性分数时，可以考虑如下因素：

c)是否包含一些预定义的描述字段，如“属性/attribute”，“规格/specification”，“类型/type”等，这些可以通过预定义来设置，如果包含了，则可能是属性名标识符的可能性大。

d)列之间的数据类型的一致性，列之间的数据类型越一致，该行可能是对象标识符区域的可能性越大。

e)除了此行数据外，行之间相似度，行之间的相似度越大，该行可能是对象标识符区域的可能性越大。

f)该行是纯文字，如“价格”，“高度”等，如果是，其为属性名区域的可能性增大。

g)该行是否通用词较多，如果是，其为属性名区域的可能性增大。

在得到各行为对象标识符区域和属性名区域的可能性分数后，前进到步骤S6200。

在步骤S6200中，选择可能性分数最高的行，并确定该行是对象标识符区域(属性名区域)。例如，在所有行的对象标识符区域和属性名区域的可能性分数之中，可能性分数最高的是第一行的对象标识符区域的可能性分数，则确定第一行为对象标识符区域。再比如，如果在所有行的对象标识符区域和属性名区域的可能性分数之中，可能性分数最高的是第一行的属性名区域的可能性分数，则确定第一行为属性名区域。

在步骤S6300中，计算各列为属性名区域(对象标识符区域)的可能性分数。

在确定了哪行为对象标识符区域(属性名区域后)，基于对象标识符区域和属性名区域的正交性，则接下来要确定是哪列是属性名区域(对象标识符区域)。

为此，可以计算各列为属性名区域(对象标识符区域)的可能性分数。关于此可能性分数的计算，可以采用和步骤S6100中计算行的对象标识符区域可能性分数或属性名区域的可能性分数的方法类似的方法。只不过，在此步骤，不需要为每列计算两个可能性分数，而且只需计算一种可能性分数，即如果在步骤S6200中已经确定某行为对象标识符区域，则在这里只需计算每列为属性名区域的可能性分数即可。

在步骤S6400中，选择可能性分数最高的列作为属性名区域(对象标识符区域)。

在步骤S6500中，输出对象标识符区域、属性名区域、属性值区域信息。

可见，通过根据本实施例的表格布局确定方法，可以在最开始即确定表格方向和对象标识符区域或属性名区域。

<6系统硬件配置>

<6.1从非结构化文档抽取关系型表格的装置>

本发明还可以实施为一种从非结构化文档抽取关系型表格的装置，可以用来执行前述的本发明实施例的从非结构化文档抽取关系型表格的方法。

图18示出根据本发明实施例的从非结构化文档抽取关系型表格的装置1800的总体功能性框图。如图18所示，一种从非结构化文档抽取关系型表格的装置1800，包括：表格检测部分1810，检测非结构化文档中的表格，以获得表格；以及表格布局确定部分1820，确定指明表格中的对象标识符部分、属性名部分和属性值部分的表格布局。

在非结构化文档是网页的情况下，表格检测部分1810可以通过解析网页并选择被用来显示表格数据的DOM节点来得到表格。

从非结构化文档抽取关系型表格的装置1800还可以包括表格规范化部分，用于在确定表格布局之前，规范化所检测的表格的内容。

从非结构化文档抽取关系型表格的装置1800还可以包括表格过滤部分，用于在确定表格布局之前，过滤表格中的内容，以去除信息含量低的数据。

过滤表格中的内容包括以下操作中的至少一种：计算表示行的信息含量的行信息量分数，并去除行信息量分数低的行；计算表示列的信息含量的列信息量分数，并去除列信息量分数低的列；计算表示整个表格的信息含量的表格信息量分数，并且如果整个表格的信息量分数低于预定阈值，则丢弃该表格。

表格布局确定部分1820确定表格布局可以包括：确定表征表格中候选对象标识符部分、候选属性名部分和候选属性值部分的布局的各种候选表格布局；计算各种候选表格布局的一致性分数；基于所计算的各种候选表格布局的一致性分数，确定表格布局，从而确定了表格中的对象标识符部分、属性名部分和属性值部分。

表格布局确定部分1820可以至少基于下列要素中的一个或几个计算各种候选表格布局的一致性分数：1)对象标识符是否唯一；2)属性名是否唯一；3)各行之间的相似度分数和各列之间的相似度分数；4)每行的各个单元格间数据的类型一致性，以及每列的各个单元格间数据的类型一致性。

<6.2网络系统环境>

图19示出了可以实施本发明实施例的网络系统环境示意图。其中本发明的各个模块可以以计算机程序形式作为总体系统S0驻留于计算机1000的内存1002，CPU 1001通过调用该程序来实施各个模块，该计算机例如从互联网100下载网页R0，利用本发明的各个模块从网页中抽取关系型表格，将抽取的对象标识符、属性名和属性值R5可以作为关系型表格存储在例如硬盘1003。

<6.3从非结构化文档抽取关系型表格的硬件系统>

本发明还可以通过一种从非结构化文档抽取关系型表格的系统来实施。图20是示出按照本发明实施例的从非结构化文档抽取关系型表格的系统1000的总体硬件框图。如图20所示，从非结构化文档抽取关系型表格的系统1000可以包括：输入设备1100，用于从外部输入将要处理的关键字，例如可以包括键盘、鼠标器、以及通信网络及其所连接的远程输入设备等等；处理设备1200，用于实施上述的按照本发明实施例的从非结构化文档抽取关系型表格的方法，或者实施为上述的从非结构化文档抽取关系型表格的装置，例如可以包括计算机的中央处理器或其它的具有处理能力的芯片等等，可以连接到诸如因特网的网络(未示出)，根据处理过程的需要而从网络获取网页等等；输出设备1300，用于向外部输出实施上述从非结构化文档抽取关系型表格的过程所得的结果，例如可以包括显示器、打印机、以及通信网络及其所连接的远程输出设备等等；以及存储设备1400，用于以易失或非易失的方式存储上述从非结构化文档抽取关系型表格的过程所涉及的DOM树、表格规范前后的数据、表格过滤前后的数据、所得的结果、命令、中间数据等等，例如可以包括随机存取存储器(RAM)、只读存储器(ROM)、硬盘、或半导体存储器等等的各种易失或非易失性存储器。

<7总结>

根据本发明的实施例，提供了一种从非结构化文档中抽取关系型表格的方法，可以包括：检测非结构化文档中的表格，以获得表格；以及确定指示表格中的对象标识符部分、属性名部分和属性值部分的表格布局。

可以至少基于下列要素中的一个或几个计算各种候选表格布局的一致性分数：1)对象标识符是否唯一；2)属性名是否唯一；3)各行之间的相似度分数和各列之间的相似度分数；4)每行的各个单元格间数据的类型一致性，以及每列内部的各个单元格间数据的类型一致性。

按照本发明实施例的从非结构化文档抽取关系型表格的方法、从非结构化文档抽取关系型表格的装置，提供了一种从非结构化文档抽取关系型表格的全自动处理技术。本发明的关系型表格抽取技术可以用于统计、战略决策、科学研究等领域。

前述描述仅为说明性的，可以进行很多修改和/或替换。

例如，前文描述以二维关系型表格为例，说明了本发明抽取关系型表格的方法，不过本发明并不局限于二维关系型表格，也可以用于三维关系型表格等。

前文描述了在非结构化文档是网页的情况下，通过构建DOM树来提取表格。不过这仅为示例，在非结构文档是网页的情况下，也可以采用例如CSS2Visual Box Model(盒状模型)等工具对Web文档进行解析，依据解析结果中的视觉信息以及空间关系来提取Web中的表格，关于此可参见非专利文献Box Model[EB/OL].[2007-11-11].http://www.w3.org/TR/REC-CSS2/box.html中的具体描述。

前面的描述大部分以Web网页为例说明从Web网页中抽取关系型表格的方法，不过本发明实施例的抽取关系型表格方法可以应用于任何非结构文档，例如pdf，word，xml，txt等格式的文档。

以上结合具体实施例描述了本发明的基本原理，但是，需要指出的是，对本领域的普通技术人员而言，能够理解本发明的方法和装置的全部或者任何步骤或者部件，可以在任何计算装置(包括处理器、存储介质等)或者计算装置的网络中，以硬件、固件、软件或者它们的组合加以实现，这是本领域普通技术人员在阅读了本发明的说明的情况下运用他们的基本编程技能就能实现的。

因此，本发明的目的还可以通过在任何计算装置上运行一个程序或者一组程序来实现。所述计算装置可以是公知的通用装置。因此，本发明的目的也可以仅仅通过提供包含实现所述方法或者装置的程序代码的程序产品来实现。也就是说，这样的程序产品也构成本发明，并且存储有这样的程序产品的存储介质也构成本发明。显然，所述存储介质可以是任何公知的存储介质或者将来所开发出来的任何存储介质。

还需要指出的是，在本发明的装置和方法中，显然，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本发明的等效方案。并且，执行上述系列处理的步骤可以自然地按照说明的顺序按时间顺序执行，但是并不需要一定按照时间顺序执行。某些步骤可以并行或彼此独立地执行。例如，在参考图17描述确定表格布局的方法时，描述了先计算各行是对象标识符区域的可能性分数以及为属性名区域的可能性分数；选择可能性分数最高的行，并相应地确定该行是对象标识符区域或属性名区域，然后基于行中对象标识符区域或属性名区域的确定，计算各列为属性名区域或对象标识符区域的可能性分数；选择可能性分数最高的列作为属性名区域或对象标识符区域。不过这仅为示例，也可以先计算各列为对象标识符区域的可能性分数以及为属性名区域的可能性分数；选择可能性分数最高的行，并相应地确定该行是对象标识符区域或属性名区域，然后基于行中对象标识符区域或属性名区域的确定，计算各列为属性名区域或对象标识符区域的可能性分数；选择可能性分数最高的列作为属性名区域或对象标识符区域。不过这仅为示例，也可以先计算各列是对象标识符区域的可能性分数和是属性名区域的可能性分数，在确定了作为对象标识符区域或属性名区域的列之后，再进行行的计算。再比如，可以并行地计算各行是对象标识符区域的可能性分数和是属性名区域的可能性分数和各列是对象标识符区域的可能性分数和是属性名区域的可能性分数，然后选择所有行和列中可能性分数最高的一个，如果该可能性分数是作为对象标识符区域的可能性分数，则确定具有该最高可能性分数的行或列是对象标识符区域，然后基于对象标识符区域和属性名区域的正交性和有关可能性分数，来确定属性名区域。

上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，取决于设计要求和其他因素，可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。

Claims

1.一种从非结构化文档中抽取关系型表格的方法，包括：

检测非结构化文档中的表格，以获得表格；以及

确定指示表格中的对象标识符部分、属性名部分和属性值部分的表格布局。

2.根据权利要求1的抽取关系型表格的方法，其中所述非结构化文档是网页，以及通过解析网页并选择被用来显示表格数据的DOM节点来得到表格。

3.根据权利要求1或2的抽取关系型表格的方法，还包括：

在确定表格布局之前，规范化所检测的表格的内容。

4.根据权利要求3的抽取关系型表格的方法，其中规范化所检测的表格的内容包括：

对于表格的每个表格单元格计算一段文本，此文本可以为空。

5.根据权利要求4的抽取关系型表格的方法，所述对于表格的每个表格单元格计算一段文本包括：

对于每个无文本节点但含图像节点的单元格，基于图像节点的特征确定一段文本。

6.根据权利要求1或2的抽取关系型表格的方法，还包括：

在确定表格布局之前，过滤表格中的内容，以去除信息含量低的数据。

7.根据权利要求6的抽取关系型表格的方法，所述过滤表格中的内容包括以下操作中的至少一种：

计算表示行的信息含量的行信息量分数，并去除行信息量分数低的行；

计算表示列的信息含量的列信息量分数，并去除列信息量分数低的列；

计算表示整个表格的信息含量的表格信息量分数，并且如果整个表格的信息量分数低于预定阈值，则丢弃该表格。

8.根据权利要求1或2的抽取关系型表格的方法，所述确定表格布局包括：

确定表征表格中候选对象标识符部分、候选属性名部分和候选属性值部分的布局的各种候选表格布局；

计算各种候选表格布局的一致性分数；

基于所计算的各种候选表格布局的一致性分数，确定表格布局，从而确定了表格中的对象标识符部分、属性名部分和属性值部分。

9.根据权利要求8的抽取关系型表格的方法，至少基于下列要素中的一个或几个计算各种候选表格布局的一致性分数：

1)对象标识符是否唯一；

2)属性名是否唯一；

3)各行之间的相似度分数和各列之间的相似度分数；

4)每行的各个单元格间数据的类型一致性，以及每列的各个单元格间数据的类型一致性。

10.一种从非结构化文档抽取关系型表格的装置，包括：

表格检测部分，检测非结构化文档中的表格，以获得表格；以及

表格布局确定部分，确定指明表格中的对象标识符部分、属性名部分和属性值部分的表格布局。