CN101236609B

CN101236609B - 用于分析并确定文档中信息的相关性的装置和方法

Info

Publication number: CN101236609B
Application number: CN200810004819XA
Authority: CN
Inventors: 武部浩明; 藤本克仁
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2007-02-02
Filing date: 2008-02-02
Publication date: 2012-09-05
Anticipated expiration: 2028-02-02
Also published as: JP2008191833A; CN101236609A; US20080187240A1; JP4940973B2; US8224090B2

Abstract

本发明涉及用于分析并确定文档中信息的相关性的装置和方法。该文档可为指定表格，其中包含多个模块，该多个模块中的至少一个模块包含表示表头的数据，该多个模块中的其余模块包含与表头信息关联的数据，该装置包括：用于存储多个模板的存储器，各模板具有多个节点、分别与该多个节点关联的字符数据以及该多个节点之间的相对位置信息；和根据一处理来分析并确定信息的相关性的处理器，该处理包括：获取该指定表格中的多个模块中包含的数据，确定该多个模块的相对位置以生成相对位置信息；与该模板的字符数据和该多个节点的相对位置信息相比较地，分析从该多个模块获取的数据及该多个模块的相对位置信息；以及确定该多个模块中包含的数据的相关性。

Description

用于分析并确定文档中信息的相关性的装置和方法

技术领域

本发明涉及逻辑结构识别程序、逻辑结构识别方法、以及逻辑结构识别装置。

背景技术

表格经常被转换成电子数据。因而，存在将表格有效地转换成电子数据的需求。例如，可以通过从表格中自动提取关键字和数据，并同时识别表格图像的逻辑结构来实现将表格有效地转换成电子数据。

作为现有技术的示例，有日本未审查专利申请公开2006-300325、2006-209065、5-159101、以及2006-134106。

发明内容

根据实施方式的一个方面，提供了一种用于分析并确定指定表格中包含的信息的相关性的装置，在所述表格中包含多个模块，所述多个模块中的至少一个模块包含表示表头(header)的数据，所述多个模块中的其余模块包含与表头信息关联的数据，该装置包括：用于存储多个模板的存储器，所述模板具有多个节点、分别与所述多个节点关联的字符数据以及所述多个节点之间的相对位置信息；和用于根据处理来分析并确定所述信息的相关性的处理器，所述处理包括以下步骤：获取所述指定表格中的所述多个模块中包含的数据；确定所述多个模块的相对位置以生成相对位置信息；与所述多个模板的所述字符数据和所述多个节点的相对位置信息相比较地，分析从所述多个模块获取的所述数据和所述多个模块的所述相对位置信息；以及确定所述多个模块中包含的所述数据的相关性。

附图说明

图1示出了本发明的概要；

图2示出了逻辑结构识别装置的硬件结构的实施例；

图3是示出了逻辑结构识别装置的功能的框图；

图4是用于说明层级结构的例示图；

图5A、5B以及5C示出了逻辑结构模板的实施例；

图6示出了可能模板列表；

图7示出了已存储逻辑结构模板的数据结构；

图8示出了层级关系；

图9示出了并列关系；

图10示出了字关系；

图11是示出处理器的功能的框图；

图12例示了假设字符区生成单元的功能；

图13示意性示出了字符识别单元生成的文档布局层级的数据结构；

图14是逻辑结构识别处理的流程图；

图15是示出了逻辑结构识别处理单元的功能的框图；

图16A和16B是用于说明完整制图处理的例示图；

图17A和17B是已经经受完整制图处理的逻辑结构模板的例示图；

图18是列表处理的流程图；

图19A和19B是用于说明列表处理的具体实施例的例示图；

图20A和20B是用于说明列表处理的具体实施例的例示图；

图21示出了生成的图形；以及

图22示出了提取的集团(clique)。

具体实施方式

下面参照附图对本发明的实施方式进行说明。

将对应用本发明的实施方式之前的技术进行概要说明。例如可以通过下述处理来实现通过对表格图像的逻辑结构进行识别而从表格中自动提取关键字和数据。在第一处理中，预先制备逻辑定义字段，该逻辑定义字段表示由表头字符串的候选和字符串的候选数据的规则表达的对形成的列表。在第二处理中，将从表格图像的字符识别结果中获取的字符信息与逻辑定义字段比较。在第三处理中，提取关键字。

还存在另一方法，该方法利用逻辑结构的层级和布局上的接近度之间的关系，根据概率传播方法来定义表头和数据。利用这种方法，甚至可以识别具有深层级结构的表的表格的逻辑结构。

另外，存在许多用于识别一般文档的逻辑结构的方法。在一种这样的方法中，使通过文档图像划分装置获取的诸如字符块、字符行、图形等的具有属性的区域与其中节点表示文档组件并且链接表示位置关系的图像结构模型相匹配。在这种方法中，确定哪一个结构模型匹配关心的文档图像的结构。在这种方法中，为每一个区域设置一个与逻辑结构有关的标签。

还可使用另一方法，在该另一种方法中，将识别结果与概念词典和图解信息(schema information)进行比较，它确定识别结果是项目(item)还是数据，并且执行项目与数据之间的关联。

然而，上述方法具有下述问题。例如，不能支持表格的层级表头。另外，仅支持表头与数据之间的关系较简单的情况。而且，可能将明显不匹配的表头和数据彼此不正确地关联。另外，难于设置参数。而且，一些匹配算法是深度优先搜索算法。在这种算法中，根据链接，顺序地假定图形结构中表示模型的节点的对应。因而，关于匹配目标，存在布局组件与结构模型之间的对应从布局组件到结构模型上必须是满射(surjective)的条件。在这种匹配中，难于使用具有各种布局的文档，并且匹配极大程度上受识别逻辑结构之前的布局和字符识别中的差错的影响。另外，当项目与数据之间的关系如在具有层级结构的表结构中变复杂时，不清楚可以怎样识别项目与数据之间的对应。

本发明的实施方式解决了上述问题。本发明的一实施方式提供了能够高度准确地识别具有复杂布局的文档的逻辑结构的逻辑结构识别程序、逻辑结构识别方法、以及逻辑结构识别装置。另外，本发明的一实施方式提供了能够在不需要制备复杂模型的情况下高度准确地识别具有各种布局的文档的逻辑结构的逻辑结构识别程序、逻辑结构识别方法、以及逻辑结构识别装置。另外，本发明的一实施方式提供了能够在不受布局识别或字符识别中的差错的影响的情况下识别文档的逻辑结构的逻辑结构识别程序、逻辑结构识别方法、以及逻辑结构识别装置。

下面，对本发明的实施方式进行概要说明。

在这种实施方式中，文档的布局具有由层级级别“全部”、“标题”、“字”以及“字符”组成的层级结构。将多个定性布局结构登记为用于文档布局的各层级的逻辑结构模板。可以通过搜索满足布局结构的点并且通过实现与获取的搜索结果的匹配来识别接收的表格文档的整体逻辑结构。

逻辑结构模板具有图结构，该图结构包括表示布局组件的节点和节点之间的关系。作为节点之间的关系，定义了层级关系、对等关系等。因而，可以表达布局组件的各种排列。对于每一个层级来说，将实际使用的所有位置关系登记为模板。另外，用恰好下层级的逻辑结构模板来识别节点。

图1示意性示出了本发明的一种实施方式。逻辑结构识别程序能够输出与输入的各种文档布局良好匹配的模板和与文档布局有关的逻辑结构识别结果，它们都是匹配结果。执行逻辑结构识别程序的计算机1具有后面将描述的功能。逻辑结构识别程序使计算机1充任模板存储模块2、识别信息获取模块3、以及输出模块4。

模板存储模块2存储有每一个都包括多个节点的多个模板。在该多个模板中的每一个模板中，定义了所述多个节点之间的位置关系，并且所述多个节点中的每一个节点都包括表头或数据。模板中的每一个节点都形成了下位模板。在下位模板中，定义了形成该下位模板的节点之间的位置关系。将每一个都至少包括一个节点的多个模板存储在模板存储模块2中。节点包括表头或数据。

图1所示模板T1包括每一个都包括表头(例如，“onamae”(姓名)、“juusyo”(地址)等)的三个节点(N1、N3以及N4)、和每一个都包括数据的两个节点(N5和N6)。模板定义了节点之间的位置关系。每一个节点都形成一模板(下位模板)。下位模板定义了形成该下位模板的节点之间的位置关系。

图1所示模板T1的节点N1形成包括三个节点N2、N7以及N8的模板T2。模板T2的节点N2形成了模板T3。形成模板的节点的成分单位的面积随层级变低而减小。成分单位例如是按从上位到下位的次序的“全部”、“标题”、“字符串”以及“字符”。“标题”是字符串的集合。形成标题的字符串是语义相干(semantically coherent)的。管理者重复地生成这种模板直到形成表示字符的节点为止。将每一个生成的模板都存储在模板存储模块2中。

识别信息获取模块3识别外部接收到的文档布局的布局结构。识别信息获取模块3获取文档布局的布局结构和字符信息。

输出模块4检测与接收到的文档布局对应的模板。输出模块4确定通过识别信息获取模块3获取的字符信息中包括的各字符串是否对应于模板(关心的模板)中包括的各个节点的字符串。接着，输出模块4递归地验证由被确定为对应于字符串的节点形成的模板的匹配，以执行关于模板对应的确定。输出模块4针对存储在模块存储模块2中的每一个模板执行这种确定，并且检测与字符信息相匹配的模板，作为关心的整个模板。输出模块4还确定形成被检测模板的节点之间的位置关系是否满足获取的布局结构。接着，输出模块4输出满足位置关系的模板，作为用于接收到的文档布局的模板。

利用上述逻辑结构识别程序，可以获取文档布局的布局结构和字符信息。根据逻辑结构识别程序，可以通过确定下位节点之间的对应来递归地验证模板的匹配。因而，可以高度准确地识别具有复杂布局的文档的逻辑结构。另外，通过额外地登记模板，可以容易地获取外部信息。因而，不存在用于针对输入的各种文档布局(如估计单、投递报表等)执行参数调整的需要，从而可以利用普通方法实现逻辑结构的高度准确识别。

下面，对本发明的一种实施方式进行说明。图2示出了逻辑结构识别装置的硬件构造的实施例。

逻辑结构识别装置100输出与接收到的文档布局良好匹配的模板。逻辑结构识别装置100通过执行用于将预先制备的多个逻辑结构模板中的每一个模板应用至接收到的文档布局的逻辑结构识别处理，来检测与接收到的文档布局良好匹配的模板。整个逻辑结构识别装置100受中央处理单元(CPU)101控制。随机存取存储器(RAM)102、硬盘驱动器(HDD)103、图形处理器104、输入接口105以及通信接口106经由总线107连接至CPU 101。

在RAM 102中临时存储有要通过CPU 101执行的至少部分操作系统(OS)和应用程序。另外，在RAM 102中存储有要通过CPU 101执行的处理所需的各种数据。HDD 103中存储有OS和应用程序。在HDD 103中存储有程序文件。

监视器11连接至图形处理器104。图形处理器104根据来自CPU 101的指令使图像显示在监视器11的屏幕上。

键盘12和鼠标器13连接至输入接口105。输入接口105经由总线107向CPU 101发送从键盘12或鼠标器13发送来的信号。

通信接口106连接至网络10。通信接口106经由网络10向另一计算机发送数据和从另一计算机接收数据。

利用上述硬件构造，可以实现该实施方式的处理功能。具有上述硬件构造的逻辑结构识别装置100具有下述功能，以使执行逻辑结构识别处理。

图3是示出了逻辑结构识别装置100的功能的框图。

逻辑结构识别装置100包括模板生成器110和处理器120。

根据用户输入，模板生成器110生成要通过用于执行逻辑结构识别处理的处理器120使用的逻辑结构模板。模板生成器110包括逻辑结构模板输入接收单元111和逻辑结构模板存储单元112。

逻辑结构模板输入接收单元111在监视器11上显示要用于生成逻辑结构模板的输入接收画面。逻辑结构模板输入接收单元111具有图形用户接口(GUI)功能。用户在观看输入接收画面的同时利用键盘12和鼠标器13生成逻辑结构模板。生成的逻辑结构模板是其中文档的布局具有由下列层级：“全部”、“标题”、“字符串”以及“字符”组成的层级结构的模板。将逻辑结构模板生成为该模板具有公用于通过后面将说明的自动布局识别、自动字符识别等获取的布局结构的布局。即使使用不同布局，同一类型的表格也具有公同点，如信息项目等。例如，估计单包括“日期信息”、“请求数”等。共同项目被集成到逻辑结构模板中。用于表格的逻辑结构模板例如包括一对字符串和数据以及该字符串与数据之间的关系。字符串例如是作为形成模板的信息的“onamae”(姓名)、“gohonnin hisiyo”(签名)等。数据例如是输入的、对应于字符串的信息。字符串被固定，而数据可能没有限定。然而，可以定义表达数据的格式和数据的字符类型。例如，日期数据例如可以表达为“****年**月**日”(“*”是希望数)。

接下来，对层级进行说明。

图4是用于说明层级化的例示图。

应用表格200具有诸如“用户登记”的标题。应用表格200包括输入姓名的姓名输入字段201、输入地址的地址输入字段202、以及输入针对调查表的回答的调查表输入字段203。层级结构由下列层级：“全部”204、“标题”205、“字符串”206以及“字符”207组成。

层级“全部”204对应于应用表格200。

标题是彼此语义地连接的字符串的集合。层级“标题”205对应于姓名输入字段201、地址输入字段202、或调查表输入指定203。层级“标题”205处的姓名输入字段201是多个字符串的集合。姓名输入字段201包括多个字符串，如“o na mae”208、“go hon nin ji syo”209、“ro-ma ji”210、“yama da ta ro”211、“Taro Yamada”212、“请务必写下姓名和地址。”213、以及“使用Hepburn系统显示罗马字符。”214。

字符串“o na mae”208意指带尊称的名字。字符串“o na mae”208表示姓名输入字段201的类别。

字符串“go hon nin ji syo”209表示用户应当将他/她的姓名签署于针对字符串211的列中。字符串“go hon nin ji syo”209意指用户本人应当在字符串211的列中写入他/她的姓名，用于进行用户登记。

字符串“ro-ma ji”210表示以罗马字符显示用户的姓名。字符串“ro-ma ji”210意指将在字符串212的列中按罗马字符显示用户的姓名。

字符串211“yama da taro”是用户按kanji字符(日本表意字符)写入的用户姓名。字符串212“Taro Yamada”是按罗马字符显示的用户姓名。

字符串“请务必写下姓名和地址。”213是用户在写入针对字符串“gohon nin ji syo”209的字符串211“yama da taro”时要注意的注释。字符串“使用Hepburn系统显示罗马字符。”214是用户在写入针对字符串“ro-ma ji”210的字符串212“Taro Yamada”时要注意的注释。

紧接采用kanji字符写入的字符串，采用英文写入具有对应含义的字符串“o na mae”208、“go hon nin ji syo”209、“ro-maji”210以及“yamada ta ro”211。

字符串“o na mae”208和“ro-maji”210中的每一个都是多个字符的集合。字符串“o na mae”208是字符“o”215、“na”216以及“mae”217的集合。字符串“ro-maji”210是字符“ro”218、“-”219、“ma”220以及“ji”221的集合。接下来，对逻辑结构模板进行说明。

逻辑结构模板表示节点(顶点)之间的关系。

图5A、5B以及5C示出了逻辑结构模板的实施例。为了容易理解，在图5A、5B以及5C中的每一个图中，按逻辑结构模板与文档布局层级相比较的方式例示该逻辑结构模板。

逻辑结构模板包括一组节点和连接节点的一组路径(分支或边)。逻辑结构模板表示着眼于节点之间的“连接关系”而抽象出的“点与连接点的线”的信息。

图5A中的标号“Te1”指示“全部”的逻辑结构模板。图5B中的标号“Te2”指示“标题”的逻辑结构模板。图5C中的标号“Te3”指示“字符串”的逻辑结构模板。

例如，用户生成图5A所示逻辑结构模板Te1。

图5A所示逻辑结构模板Te1包括节点n11、n12、n13以及n14。节点n11表示“标题”。节点n12表示“地址”。节点n13表示“姓名”。节点n14表示“调查表”。

用户生成针对逻辑结构模板Te1的节点n13的逻辑结构模板Te2。用户还生成针对“地址”节点n12和“调查表”节点n14逻辑结构模板。

图5B所示逻辑结构模板Te2包括节点n21、n22、n23、n24以及n25。节点n21表示“姓名”。节点n22表示“罗马字符”。节点n23表示“签名”。节点n24表示“数据”。节点n25表示“数据”。用户生成针对逻辑结构模板Te2的“姓名”节点n21的逻辑结构模板Te3。

图5C所示逻辑结构模板Te3包括节点n31、n32以及n33。标号k1、k2以及k3中的每一个都指示kanji或kana字符。kanji或kana字符k1、k2和k3的组合意味着“onmae(带尊称的名字)”。与kanji或kana字符k1对应的罗马字符是“O”r1。与kanji或kana字符k2对应的罗马字符组是“na”r2。与kanji或kana字符k3对应的罗马字符组是“mae”r3。节点n31表示字符“o”。节点n32表示字符组“na”。节点n33表示字符组“mae”。

当生成逻辑结构模板时，用户指定要彼此关联的节点。用户通过路径连接要彼此连接的节点。用户添加表示节点之间的关系的附加字符。

因此，节点由恰好在该节点的逻辑结构模板所在的层级之下的层级处的逻辑结构模板中的一个逻辑结构模板识别。因而，任何层级处的节点都可以表达为用作最低层级处的节点的字符的集合。另外，用户在字符串的每一个节点中存储相同或相似的多个逻辑结构模板(这些模板可以相互识别)，作为列表。这个列表被定义为“可能模板列表”。

图6示出了可能模板列表。

图6所示模板Te2是“标题”的逻辑结构模板。逻辑结构模板Te2包括“姓名”节点n21、“罗马字符”节点n22、“签名”节点n23、“数据#1”节点n24、以及“数据#2”节点n25。

“姓名”节点n21和可能模板列表Te21关联。可能模板列表Te21包括：“名字‘na mae’”节点n211、“尊称名‘o na mae’”节点n212、“姓氏‘si mei’”节点n213，以及“尊称姓‘go si mei’”节点n214。

所有“名字‘na mae’”节点n211、“尊称名‘o na mae’”节点n212、“姓氏‘si mei’”节点n213、以及“尊称姓‘go si mei’”节点n214都涉及姓名。因而，当检测接收表格中的“姓名”时，逻辑结构识别装置100搜索涉及“姓名”的可能模板列表Te21。

“罗马字符”节点n22和可能模板列表Te22关联。可能模板列表Te22包括“罗马字符‘ro-maji’”节点n221。

“签名”节点n23和可能模板列表Te23关联。可能模板列表Te23包括“签名‘ji syo’”节点n231、“本人签名‘hon nin ji syo’”节点n232，以及“您本人签名‘go hon nin ji syo’”节点n233。

逻辑结构模板输入接收单元111将“全部”的逻辑结构模板、“标题”的逻辑结构模板以及“字符串”的逻辑结构模板存储在逻辑结构模板存储单元112中。

图7示出了存储的逻辑结构模板的数据结构。

如图7所示，“全部”的逻辑结构模板Te10包括“标题数”信息J1、“标题数据”信息J2，以及“标题之间的关系”信息J3。

“标题”的逻辑结构模板Te11包括“字符串数”信息J4、“字符串数据”信息J5、以及“字符串之间的关系”信息J6。

“字符串”的逻辑结构模板Te12包括“字数”信息J7、“字数据”信息J8、以及“字之间的关系”信息J9。

“字”的逻辑结构模板Te13包括代码(字符代码)信息J10。

对节点之间的关系进行说明。

提供了定义。“实际域”表示在实际布局中在其中实现逻辑结构模板或节点的区域。节点之间的关系表示实际域中节点之间的关系。

对于其中形成节点的字符的整个集合属于一单元并且该单元仅由形成该节点的字符的整个集合组成的情况来说，针对该节点的实际矩形域是单元的区域。一单元是模板的一个框。在其它情况下，针对一节点的实际矩形域是形成该节点的字符的集合的外接矩形。

关于针对一节点的实际矩形域，节点之间的关系可以表达为“层级关系(h)”、“并列关系(p)”、“字关系(w)”、以及“独立关系(d)”。

<层级关系(h)>

图8示出了层级关系。在图8中，“上”表示该图中的向上方向，“下”表示该图中的向下方向，“左”表示该图中的向左方向，“右”表示该图中的向右方向，“Y方向”表示该图中的纵向，以及“X方向”表示该图中横向(同样适用于图9和图10)。在下述情况中的任一情况中，在节点a与b之间满足层级关系(h)。节点a是实际矩形域α。节点b是实际矩形域β。在第一种情况下，实际矩形域α和β都是单元域，将实际矩形域α设置至实际矩形域β的左侧，并且当实际矩形域α和实际矩形域β向Y轴投影时，实际矩形域α完全地包含实际矩形域β。在第二种情况下，实际矩形域α和实际矩形域β都是单元域，将实际矩形域α设置在实际矩形域β之上，并且当实际矩形域α和实际矩形域β向X轴投影时，实际矩形域α完全地包含实际矩形域β。在第三种情况下，将实际矩形域α设置至实际矩形域β的左侧，并且当实际矩形域α和实际矩形域β向Y轴投影时，实际矩形域α和实际矩形域β至少彼此局部交叠。在第四种情况下，将实际矩形域α设置在实际矩形域β之上，并且当实际矩形域α和实际矩形域β向X方向投影时，实际矩形域α和实际矩形域β至少彼此局部交叠。

<并列关系(p)>

图9示出了并列关系。在下述情况中的任一情况下，节点a与节点b之间满足并列关系。节点a是实际矩形域α。节点b是实际矩形域β。

当实际矩形域α和实际矩形域β都是单元域时，在下述四种情况中的任一情况中满足并列关系(p)。在第一种情况下，将实际矩形域α设置至实际矩形域β的左侧，并且当实际矩形域α和实际矩形域β向Y轴投影时，实际矩形域α与实际矩形域β对应。在第二种情况下，将实际矩形域α设置至实际矩形域β的右侧，并且当实际矩形域α和实际矩形域β向Y轴投影时，实际矩形域α与实际矩形域β对应。在第三种情况下，将实际矩形域α设置在实际矩形域β之上，并且当实际矩形域α和实际矩形域β向X轴投影时，实际矩形域α与实际矩形域β对应。在第四种情况下，将实际矩形域α设置在实际矩形域β之下，并且当实际矩形域α和实际矩形域β向X轴投影时，实际矩形域α与实际矩形域β对应。

在其它情况下，在下述四种情况中的任一情况中满足并列关系(p)。在第一种情况下，将实际矩形域α设置至实际矩形域β的左侧，并且当实际矩形域α和实际矩形域β向Y轴投影时，实际矩形域α和实际矩形域β至少彼此局部交叠。在第二种情况下，将实际矩形域α设置至实际矩形域β的右侧，并且当实际矩形域α和实际矩形域β向Y轴投影时，实际矩形域α和实际矩形域β至少彼此局部交叠。在第三种情况下，将实际矩形域α设置在实际矩形域β之上，并且当实际矩形域α和实际矩形域β向X轴投影时，实际矩形域α和实际矩形域β至少彼此局部交叠。在第四种情况下，将实际矩形域α设置在实际矩形域β之下，并且当实际矩形域α和实际矩形域β向X方向投影时，实际矩形域α和实际矩形域β至少彼此局部交叠。

<字关系(w)>

图10示出了字关系。

在下述情况中的任一情况下，节点a与b之间满足字关系(w)。节点a是实际矩形域α。节点b是实际矩形域β。在第一情况下，将实际矩形域α设置至实际矩形域β的左侧，并且实际矩形域α的中心线近似地对应于实际矩形域β的中心线。在第二种情况下，将实际矩形域α设置至实际矩形域β的右侧，并且实际矩形域α的中心线近似地对应于实际矩形域β的中心线。在第三种情况下，将实际矩形域α设置在实际矩形域β之上，并且实际矩形域α的中心线近似地对应于实际矩形域β的中心线。第四种情况下，将实际矩形域α设置在实际矩形域β之下，并且实际矩形域α的中心线近似地对应于实际矩形域β的中心线。

<独立关系(d)>

如果针对节点a的实际矩形域α和针对节点b的实际矩形域β没有彼此交叠，则满足独立关系(d)。

例如，图5A所示“全部”的逻辑结构模板Te1包括“标题”节点n11、“姓名”节点n13、“地址”节点n12、以及“调查表”节点n14。“标题”节点n11基于层级关系(h)与“姓名”节点n13以及“地址”节点n12关联。

图5B所示“标题”的逻辑结构模板Te2包括“姓名”节点n21、“罗马字符”节点n22、“签名”节点n23、“数据#1”节点n24、以及“数据#2”节点n25。

“姓名”节点n21基于层级关系(h)与“签名”节点n23以及“罗马字符”节点n22关联。“签名”节点n23基于层级关系(h)与“数据#1”节点n24关联。“罗马字符”节点n22基于层级关系(h)与“数据#2”节点n25关联。

“签名”节点n23与“罗马字符”节点n22基于并列关系(p)彼此关联。“数据#1”节点n24与“数据#2”节点n25基于并列关系(p)彼此关联。

返回至图3，提供进一步的说明。

处理器120利用生成的逻辑结构模板搜索满足输入的文档布局的结构的点。处理器120通过实现获取的搜索结果的匹配来识别整个逻辑结构。接下来，对作为文档布局的实施例的输入表格进行说明。

图11是示出了处理器120的功能的框图。

处理器120包括：布局识别单元121、假设字符区生成单元122、字符识别单元123、字符数据提取单元124、以及逻辑结构识别单元125。布局识别单元121识别通过利用扫描仪等扫描表单所获取表格图像的布局，并且提取包括字符图像的读取区域。假设字符区生成单元122按复用方式冗余地生成可以形成字符的连接成分的组合。按复用方式生成组合，以便处理布局识别或字符识别中的差错。

通过多个成分形成一些kanji字符。一些成分的形状和一些字符的形状相同。因而，在字符识别处理中必需确定字符区域的范围。

对假设字符区生成单元122的功能进行说明。图12例示了假设字符区生成单元122的功能。标号k17指示字符串“A株式会社‘A kabu sikikai sya’”。标号k18指示字符串“贵社受付番号‘ki sya uke tuke ban gou hiduke’”。字符串k17和k18中的每一个都包括多个字符。

标号k11指示字符。字符k11包括成分k12和k13。成分k12和k13中的每一个都可以作为独立字符而存在。标号k14指示字符。字符k14包括成分k15和k16。成分k15和k16中的每一个都可以作为独立字符而存在。这同样适用于形成字符串k18的字符k19、k20以及k21。

假设字符区生成单元122标注表格图像的二进制图像。针对各个连接成分，假设字符区生成单元122生成集成矩形，该集成矩形被假设作为包括连接成分和相邻连接成分的字符区。更具体地说，假设字符区生成单元122执行对连接成分和相邻连接成分的集成，以使集成成分的尺寸不超出阈尺寸。例如，字符区生成单元122沿纵向执行集成并接着沿横向执行集成。制备多个逐渐增加的阈尺寸。假设字符区生成单元122生成针对每一个阈尺寸的集成矩形。集成矩形的区域可以彼此交叠。

处理器120根据情况通过选择并利用布局识别单元121的功能或假设字符区生成单元122的功能来获取最佳字符识别结果(字符数据)。

字符识别单元123输出字符识别结果。针对布局识别单元121提取的读取区域，字符识别单元123通过利用识别词典等执行字符识别，来输出字符识别结果。针对假设字符区生成单元122生成的集成矩形，字符识别单元123通过将集成矩形识别为字符来输出彼此交叠的字符识别结果。

图13示意性示出了字符识别单元123生成的文档布局层级的数据结构。文档布局具有由下列组件组成的层级结构：“全部”lay1、“表”lay2、“单元”lay3、“文本块”lay4以及“字符”lay5。

组件“全部”lay1包括表格的数据“表数”d1和“表数据”d2。数据“表数据”d2和组件“表”lay2关联。数据“表数据”d2包括数据“坐标”d3、“单元数”d4、以及“单元数据”d5。数据“单元数据”d5和组件“单元”lay3关联。组件“单元”lay3包括数据“坐标”d6、“文本块数”d7、以及“文本块数据”d8。数据“文本块数据”d8和组件“文本块”lay4关联。组件“文本块”lay4包括数据“坐标”d9、“字符数”d10、以及“字符数据”d11。数据“字符数据”d11和组件“字符”lay5关联。组件“字符”lay5包括数据“坐标”d12和“代码”d13。

返回至图11，提供进一步的说明。

字符数据提取单元124从接收到的电子文档中提取包括代码和坐标的字符数据。电子文档例如由文档生成编辑器生成。逻辑结构识别处理单元125输出逻辑结构模板。更具体地说，逻辑结构识别处理单元125基于字符识别单元123或字符数据提取单元124检测到的字符数据执行逻辑结构识别处理。逻辑结构识别处理单元125例如输出具有最大量匹配点的逻辑结构模板。

逻辑结构识别处理

逻辑结构识别处理是用于顺序地执行获取的字符数据与“全部”的逻辑结构模板之间的匹配，并且将与逻辑结构模板匹配具有最高匹配率的结果确定为逻辑结构识别结果的处理。当执行字符数据与逻辑结构模板之间的匹配时，输出针对逻辑结构模板的实际域和表示匹配度的匹配率。

图14是逻辑结构识别处理的流程图。在图14所示流程图中，“N”表示“全部”的逻辑模板数，“W LSTi(i＝0、…、N-1)”表示“全部”的逻辑模板，“Pti(0≤Pti≤1)”表示第i项字符串的匹配率，而“Pt”表示最高匹配率。

逻辑结构识别处理单元125初始化参数i、j以及Pt(i＝0，j＝-1，Pt＝0)(步骤S1)。逻辑结构识别处理单元125确定参数i是否小于数字N(步骤S2)。如果在步骤S2中确定出参数i等于或大于数字N(如果在步骤S2中确定为否)，则逻辑结构识别处理单元125终止逻辑结构识别处理。如果在步骤S2中确定参数i小于数字N(如果在步骤S2中确定为是)，则逻辑结构识别处理单元125执行与逻辑模板“W_LSTi”的匹配，并且获取匹配率Pti(匹配处理)(步骤S3)。后面将对匹配处理进行说明。

逻辑结构识别处理单元125确定通过匹配处理获取的匹配率Pti是否等于或高于最高匹配率Pt(步骤S4)。如果在步骤S4中确定匹配率Pti低于最高匹配率Pt(如果在步骤S4中确定为否)，则逻辑结构识别处理单元125进行至步骤S6。如果在步骤S4中确定匹配率Pti等于或高于最高匹配率Pt(如果在步骤S4中确定为是)，则逻辑结构识别处理单元125将匹配率Pti设置成等于最高匹配率Pt，并且将参数j设置成i(步骤S5)。接着，逻辑结构识别处理单元125递增参数i(步骤S6)，并且处理返回至步骤S2。

逻辑结构识别处理单元125相应终止逻辑结构识别处理。逻辑结构识别处理单元125能够通过在终止逻辑结构识别处理时提取匹配率Pt和逻辑模板W_LSTi来获取匹配结果。

接下来，对匹配处理进行说明。图15是示出了逻辑结构识别处理单元125的功能的框图。逻辑结构识别处理单元125包括完整制图处理器125a、图形生成器125b、集团提取器(clique extractor)125c、以及匹配结果计算器125d。

<完整制图处理器>

完整制图意指定义逻辑结构模板。对于没有清楚定义关系的逻辑结构模板的组件来说，完整制图处理器125a利用组件与各其它组件之间的清楚定义的关系来定义逻辑结构模板。

图16A是用于说明完整制图处理的例示图。逻辑结构模板Te2包括多个节点。“姓名”节点n21与“数据#1”节点n24和“数据#2”节点n25中的每一个之间的关系不清楚。另外，“签名”节点n23与“数据#2”节点n25之间的关系不清楚。另外，“罗马字符”节点n22与“数据#1”节点n24之间的关系不清楚。在完整制图处理中，定义了上述不清楚的关系。

例如，对于存在实际域P、Q以及R的情况来说，如果实际域P和Q具有层级关系，并且实际域Q和R具有层级关系(彼此间接连接的实际域之间的每一种关系都是层级关系)，则实际域P和R具有层级关系。

参照图16A，“姓名”节点n21和“签名”节点n23具有层级关系(h)，并且“签名”节点n23和“数据#1”节点n24具有层级关系(h)。因而，“姓名”节点n21和“数据#1”节点n24具有层级关系(h)，并且“姓名”节点n21和“数据#2”节点n25具有层级关系(h)。

与此相反，如果间接连接的实际矩形域之间的至少一种关系是层级关系以外的其它关系，则将这种关系表示为独立关系(d)。在逻辑结构模板Te2中，“签名”节点n23和“数据#1”节点24具有层级关系(h)。然而，“数据#1”节点24和“数据#2”节点25具有并列关系(p)。因而，“签名”节点n23和“数据#2”节点25具有独立关系(d)。

对于实际域彼此间接连接，其间具有多个实际矩形域的情况来说，如果存在具有层级关系以外的其它关系的路径，则将这种关系表示为独立关系(d)。参照图16A，“罗马字符”节点n22和“数据#1”节点n24具有独立关系(d)。

图16B示出了采用列表格式表达逻辑结构模板Te2的模板表Tet2的结构。完整制图处理器125a利用模板表Tet2等对逻辑结构模板Te2执行完整制图处理。在模板表Tet2中，在表的列项tet21和表的行项tet22中设置有节点。在与列项tet21和行项tet22的相交点对应的字段中，设置路径的层级关系。通过使模板表Tet2的所有空白字段充满关系来实现完整制图。

图17A示出了已经经受了完整制图处理的逻辑结构模板。如图17A所示，获取了连接有路径的逻辑结构模板Te2a。图17B示出了已经经受了完整制图处理的模板表Tet2。由于执行了完整制图处理，因而，使模板表Tet2的所有空白字段充满关系。

<图形生成器>

针对形成已经经受了完整制图处理的逻辑结构模板的每一个节点，图形生成器125b搜索接收到的字符数据的实际域。图形生成器125b制成找到实际域的列表(列表处理)。图形生成器125b确定列出的实际域是否满足逻辑结构模板中定义的关系。图形生成器125b生成表示实际域之间的匹配的图形。

<列表处理>

接下来，对列表处理进行说明。在列表处理中，针对每一个节点，递归地执行属于可能模板列表的逻辑结构模板与下位逻辑结构模板之间的匹配。接着，将多个实际域提取为候选。

图18是列表处理的流程图。在图18的流程图中，“N”表示要经受匹配的逻辑结构模板中的节点数，“NTi”表示添加至节点的可能模板列表中存储的可能模板数，“LSTk”表示第k个可能模板，而“NAk”表示通过匹配检测到的模板数。

图形生成器125b初始化被用作参数的i和j(i＝0，j＝0)(步骤S21)。图形生成器125b确定参数i是否小于数字N(步骤S22)。如果在步骤S2中确定参数i等于或大于数字N(如果在步骤S22中确定为否)，则图形生成器125b终止列表处理。如果在步骤S22中确定参数i小于数字N(如果在步骤S22中确定为是)，则图形生成器125b初始化被用作与可能模板数有关的参数的k(步骤S23)。

接着，图形生成器125b确定参数k是否小于数字NTi(步骤S24)。如果在步骤S24中确定出参数k等于或大于数字NTi(如果在步骤S24中确定为否)，则图形生成器125b递增参数i(步骤S25)。接着，处理返回至步骤S22，并且图形生成器125b重复随后的处理。如果在步骤S24中确定参数k小于数字NTi(如果在步骤S24中确定为是)，则图形生成器125b执行针对可能模板LSTk的匹配(步骤S26)。

接着，图形生成器125b初始化被用作参数的m(m＝0)(步骤S27)。图形生成器125b确定参数是否小于数字NAk(步骤S28)。因为在步骤S27中初始化参数m，所以如果数字NAk不为0(即，如果匹配模板数为一个或更多个)，则参数m小于数字NAk。如果在步骤S28中确定参数m等于或大于数字NAk(如果在步骤S28中确定为否)，则图形生成器125b递增参数k(步骤S29)。接着，处理返回至步骤S24，并且图形生成器125b重复随后的处理。如果在步骤S28中确定参数m小于数字NAk(如果在步骤S28中确定为是)，则图形生成器125b生成节点j(步骤S30)。

接着，图形生成器125b递增参数j(步骤S31)。图形生成器125b递增参数m(步骤S32)。接着，处理返回至步骤S28，并且图形生成器125b重复随后的处理。

将对列表处理的具体实施例进行说明。图19A、19B、20A以及20B是用于说明列表处理的具体实施例的例示图。图19A和20A示出了文档布局。图19B和20B例示了用于执行针对逻辑结构模板的列表处理的处理。

如图19B所示，逻辑结构模板Te2包括5个节点。因而，数字N为“5”。针对5个节点顺序地执行列表处理。在这个实施例中，对其中针对“姓名”节点n21执行列表处理的情况进行说明。“姓名”节点n21被“姓名”节点n21的可能模板列表(在“标题”之下的层级处定位的可能模板列表)中存储的一个可能模板识别。如上所述，“姓名”节点n21的可能模板列表包括“名字‘na mae’”节点n211、“尊称名‘o na mae’”节点n212、“姓氏‘si mei’”节点n213、以及“尊称姓‘go si mei’”节点n214。因而，数字NTi为“4”。

图形生成器125b针对这4个节点(下位逻辑结构模板)递归地执行匹配。在“尊称名‘o na mae’”节点n212的情况下，针对“尊称名‘o namae’”的逻辑结构模板存在一个对应域(NAk＝1)。根据域数，图形生成器125b生成作为候选的实际域a1。图形生成器125b还生成针对“姓‘na mae’”的实际域a2。图形生成器125b生成针对“姓名‘si mei’”的实际域a3。图形生成器125b生成针对“尊称姓‘go si mei’”的实际域a4，其与实际域a3相同。

实际域a1中包含实际域a2。因而，图形生成器125b删除实际域a2。尽管实际域a4和实际域a3相同，但实际域a3的匹配率为1，而实际域a4的匹配率为0.67。因而，图形生成器125b删除实际域a4。接着，如图20B所示，图形生成器125b将实际域a1描述为实际域A1，并且将实际域a3描述为实际域A2。由此，图形生成器125b生成图形。

图21示出了生成的图形。

图形生成器125b确定列出的实际域是否满足逻辑结构模板中定义的关系。通过比较实际域中的字符数据中包括的坐标之间的关系和逻辑结构模板的节点之间的关系来执行这种确定。如果图形生成器125b确定出实际域满足关系，则由路径连接对应于实际域的节点。如果图形生成器125b确定实际域不满足关系，则不执行处理。如上所述，图形生成器125b生成表示实际域之间的匹配的图形g1。

<集团提取器>

集团提取器125c从生成的图形g1中提取集团。集团是顶点的最大集合，其中两个顶点之间存在连线。集团提取器125c根据提取的集团来提取满足逻辑结构模板的实际域集。

图22示出了提取的集团。集团提取器125c提取由斜线表示的、形成最大完整子图形的集团CL1。最大完整子图形按每一个实际域都连接至每一个其它实际域的方式形成。即，形成集团的所有实际域每一个都通过路径连接至每一个其它实际域。

参照图21，实际域A1通过路径连接至其它实际域B、C1、C2以及D中的每一个。因而，集团提取器125c将实际域A1选择为形成集团的实际域。与集团对应的实际域集局部地(或完整地)满足逻辑结构模板。

<匹配结果计算器>

匹配结果计算器125d从提取的集团(通常来说，提取有多个集团)中选择一集团。选定的集团的节点数大于预定比例的形成逻辑结构模板的节点数。匹配结果计算器125d计算选定的集团和匹配率(集团节点数/形成逻辑结构模板的节点数)作为匹配结果。在图22所示集团CL1的情况下，实现了原始5个节点中“签名”节点以外的其它4个节点的对应。匹配结果计算器125d计算与低字符层级中的对应节点的匹配的匹配率。例如，形成图形的字符数据是A1“o na mae”、B“go ki nin ji syo”、C1“ro-ma ji”、以及D“Taro Yamada”。当逻辑结构模板Te2的数据与集团CL1比较时，字符数据B中的一个字符不同(hon→ki)。因而，字符数据A、C1以及D中的每一个的匹配率都为100％，而字符数据B的匹配率为80％(4个字/5个字)。结果，集团CL1与逻辑结构模板Te2的数据的匹配率为(1+0.8+1+0+1)/5＝0.76。

如上所述，根据这种实施方式的逻辑结构识别装置100预先在逻辑结构模板存储单元112中存储有涉及表头的多个定性布局结构和作为逻辑结构模板的数据。逻辑结构识别装置100的处理器120通过执行针对接收到的表格布局的逻辑结构识别处理来预测处理结构。例如，不执行提取其中将表头设置在完全不同的位置中或将设置在完全不同位置中数据与表头相关联的模板。

另外，因为逻辑结构识别装置100额外登记有逻辑结构模板，所以逻辑结构识别装置100可容易地获取外部信息。因而，逻辑结构识别装置100实现针对各种表格(如估计单、投递报表等)的高度灵活的逻辑结构识别处理。逻辑结构识别装置100根据普通方法实现高准确度逻辑结构识别处理，而不需要调整参数等。

另外，因为逻辑结构识别装置100的处理器120执行逻辑结构识别处理，所以不存在针对具有各种布局的表格制备高准确度且复杂的模型的需要。

另外，逻辑结构识别装置100的完整制图处理器125a执行针对逻辑结构模板的完整制图处理。因而，可以将涉及执行匹配的问题转换成涉及从图形提取集团的问题。另外，图形生成器125b生成图形。集团提取器125c从生成的图形中提取集团。匹配结果计算器125d根据提取的集团计算匹配结果。利用上述处理，逻辑结构识别装置100能够识别表格文档的逻辑结构，而不会受布局识别或字符识别中的误差影响。

在这种实施方式中，逻辑结构识别装置100生成模板。然而，模板不必通过逻辑结构识别装置100生成。例如，可以将由外部装置预先制备的逻辑结构模板读取到逻辑结构识别装置100中。

已经参照附图对根据本发明实施方式的逻辑结构识别程序、逻辑结构识别方法以及逻辑结构识别装置进行了说明。然而，本发明不限于上述实施方式。每一个单元的构造都可以用具有类似功能的希望构造来替换。另外，可以将其它希望组件或处理添加至本发明。另外，可以将希望的上述实施方式的两种或更多种构造(特征)组合在一起。

可以通过计算机实现上述处理功能。在这种情况下，提供了对要由逻辑结构识别装置100执行的功能的处理内容进行描述的程序。可以在计算机执行所述程序时通过计算机来实现上述处理功能。可以将描述处理内容的程序记录在计算机可读记录介质中。计算机可读记录介质例如可以是磁记录设备、光盘、磁光记录介质、半导体存储器等。磁记录设备例如可以是硬盘驱动器(HDD)、软盘(FD)、磁带等。光盘例如可以是数字通用盘(DVD)、数字通用盘随机存取存储器(DVD-RAM)、光盘只读存储器(CD-ROM)、可录光盘(CD-R)/可重写光盘(CD-RW)等。磁光记录介质例如可以是磁光盘(MO)等。

为了分发程序，例如，出售存储有所述程序的便携式记录介质，如DVD、CD-ROM等。另选的是，可以将所述程序存储在服务器计算机的存储装置中，以使服务器计算机可以经由网络向另一计算机传递所述程序。

例如，执行逻辑结构识别程序的计算机存储有记录在便携式记录介质中的程序或从服务器计算机传递到该计算机的存储装置中的程序。计算机从该计算机的存储器中读取所述程序，并且根据该程序执行处理。另选的是，计算机可以从便携式记录介质中直接读取所述程序，并且根据该程序执行处理。另选的是，每当接收到来自服务器计算机的程序时，计算机就可以根据接收到的程序执行处理。

Claims

1.一种用于分析并确定表格图像中包含的信息的相关性的装置，在所述表格图像中包含多个模块，所述多个模块中的至少一个模块包含表示表头的数据，所述多个模块中的其余模块包含与表头信息关联的数据，所述用于分析并确定表格图像中包含的信息的相关性的装置包括：

存储器，该存储器用于存储多个逻辑结构模板，所述逻辑结构模板具有多个节点、分别与所述多个节点关联的字符数据、以及所述多个节点之间的相对位置信息；和

处理器，该处理器用于根据一处理来分析并确定所述信息的相关性，所述处理包括以下步骤：

获取所述表格图像中的所述多个模块中包含的字符数据，

确定所述多个模块的相对位置，以生成相对位置信息，

与所述逻辑结构模板的所述字符数据和所述多个节点的相对位置信息相比较地，分析从所述多个模块获取的所述数据和所述多个模块的所述相对位置信息，

通过顺序地执行所获取的字符数据和全部的所述逻辑结构模板之间的匹配来将与所述逻辑结构模板匹配具有最高匹配率的结果确定为逻辑结构识别结果，以及

通过比较实际域中的所述字符数据中包括的坐标之间的关系和所述逻辑结构模板的节点之间的关系来确定所述多个模块中包含的所述数据的相关性。

2.根据权利要求1所述的装置，其中，所述关联是所述多个逻辑结构模板之间的层级关系。

3.根据权利要求2所述的装置，其中，所述节点与下位层级中的所述多个逻辑结构模板关联，

所述处理还包括以下步骤：检测所述下位层级中的所述逻辑结构模板。

4.一种分析并确定表格图像中包含的信息的相关性的方法，在所述表格图像中包含多个模块，所述多个模块中的至少一个模块包含表示表头的数据，所述多个模块中的其余模块包含与表头信息关联的数据，所述方法包括以下步骤：

存储多个逻辑结构模板，所述逻辑结构模板具有多个节点、分别与所述多个节点关联的字符数据、以及所述多个节点之间的相对位置信息；

获取所述表格图像中的所述多个模块中包含的字符数据，

确定所述多个模块的相对位置，以生成相对位置信息，

5.根据权利要求4所述的方法，其中，所述关联是所述多个逻辑结构模板之间的层级关系。

6.根据权利要求5所述的方法，其中，所述节点与下位层级中的所述多个逻辑结构模板关联，

所述方法还包括以下步骤：检测所述下位层级中的所述逻辑结构模板。