CN101430761A - 计算机可读记录介质、表格数据提取装置和方法 - Google Patents

计算机可读记录介质、表格数据提取装置和方法 Download PDF

Info

Publication number
CN101430761A
CN101430761A CNA2008101741087A CN200810174108A CN101430761A CN 101430761 A CN101430761 A CN 101430761A CN A2008101741087 A CNA2008101741087 A CN A2008101741087A CN 200810174108 A CN200810174108 A CN 200810174108A CN 101430761 A CN101430761 A CN 101430761A
Authority
CN
China
Prior art keywords
data
registration form
logical elements
list data
input list
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2008101741087A
Other languages
English (en)
Other versions
CN101430761B (zh
Inventor
皆川明洋
田中宏
小泽宪秋
武部浩明
藤井勇作
堀田悦伸
藤本克仁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Publication of CN101430761A publication Critical patent/CN101430761A/zh
Application granted granted Critical
Publication of CN101430761B publication Critical patent/CN101430761B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/412Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Character Input (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及计算机可读记录介质、表格数据提取装置和方法。即使输入了不具有存储在公共逻辑结构数据库中的逻辑结构的输入表格,表格数据提取装置借助现有的逻辑结构中的逻辑元素和在逻辑结构、逻辑元素的位置信息和逻辑元素之间的关系基础上获得的登记表格而从输入表格中提取出逻辑元素和逻辑结构,并且可以将提取出的逻辑结构定义为新的登记表格或者新的逻辑结构。

Description

计算机可读记录介质、表格数据提取装置和方法
技术领域
将作为纸件形式或者电子形式的打字文件的图像转化为计算机可编辑的格式的字符编码的传统光学字符识别装置是已知的。这种传统的光学字符识别装置是非常有用的一种装置,在将手写形式等的信息输入到计算机的时候,这种装置使得不必将信息重新输入到计算机中。
背景技术
然而,在传统的光学字符识别中,无法正确地读取由书写人以特定方式进行书写形成的或由计算机形成的表格(form)等的信息。因此公开有各种技术来正确读取各种信息,以便将信息转化为字符编码等。
比如,日本专利申请公开2000-285190公开了一种诸如光学字符识别的数据输入装置,该数据输入装置识别通过使用从输入表格中提取出的信息(比如规则线条、字符和色彩)而从登记的预定表格中提取登记的类似表格,以便利用提取出的登记表格上的限定区域从输入表格中提取作为要识别的对象的识别信息。
然而在传统技术中,在输入表格发生变化的时候(比如财政年度或者色彩),即使这些变化只是局部的,也无法提取适当的登记表格。为此,具有无法从输入表格中提取识别信息的缺点。在输入表格变化(即使只是局部变化)时,每当输入表格变化时,用户就必须登记新的输入表格。登记操作繁琐,并且增加了用户的负担,这是不利的。此外,因为将要登记的内容与从表格中提取出的数据不相关,因此必须独立执行登记操作和数据区域指定。
发明内容
根据实施方式的一个方面,提供了一种表格数据提取装置,该装置提取出输入的输入表格的逻辑结构,该装置包括:登记表格存储单元,其存储有多个表格;公共(generic)逻辑结构存储单元,其存储有表示各种表格中的逻辑元素和这些逻辑元素之间的关系的逻辑结构;登记表格数据存储单元,其与存储在登记表格存储单元中的各种表格相关联地存储(a)登记表格数据,登记表格数据表示根据存储在公共逻辑结构存储单元中的逻辑结构获得的关于登记表格的逻辑元素、(b)这些逻辑元素的位置信息和(c)这些逻辑元素之间的关系;输入表格数据提取单元,其根据存储在公共逻辑结构存储单元中的逻辑结构,针对输入表格提取输入表格数据,该输入表格数据表示关于输入表格的逻辑元素、逻辑元素的位置信息和逻辑元素之间的关系;表格指定单元,其根据输入表格数据提取单元所提取的输入表格数据,指定登记表格数据存储设备中的、类似于输入表格数据的登记表格数据;和数据生成单元,其根据表格指定设备所指定的类似于输入表格数据的登记表格数据的逻辑元素的位置信息和逻辑元素之间的关系,从输入表格中再次提取表格数据,提取无法从输入表格数据中再次提取的逻辑元素,并且将再次提取的输入表格数据生成为新的登记表格数据。
附图说明
图1为示出了根据第一实施方式的表格数据提取装置的配置的方框图;
图2为示出了输入表格一个例子的图;
图3为示出了存储在登记表格数据库21中的登记表格和作为输入表格的逻辑结构识别结果的一个例子的图;
图4为示出了存储在公共逻辑结构数据库22中的逻辑结构一个例子的图;
图5为示出了存储在登记表格数据库23中的登记表格数据一个例子的图;
图6为示出了从输入表格中提取出的正确逻辑结构和识别出的逻辑结构一个例子的图;
图7为示出了根据第一实施方式的表格数据提取装置中的整体处理流程的流程图;
图8为示出了根据第一实施方式的表格数据提取装置中的逻辑结构识别处理流程的流程图;
图9为示出了根据第一实施方式的表格数据提取装置中的逻辑元素比较处理流程的流程图;
图10为示出了将要计算的图形的一个例子的图;
图11为示出了将要形成的团组(clique)一个例子的图;
图12为示出了最大团组选择例子的图;
图13为示出了在根据第一实施方式的表格数据提取装置从最优登记表格中提取数据的处理的流程图;
图14为示出了确定数据再提取项的例子的图;
图15为示出了登记表格的一个例子的图;
图16为示出了输入表格的一个例子的图;
图17为示出了在接受输入表格过程中通过逻辑结构识别获得的结果一个例子的图;
图18为示出了一个例子的图,在该例子中,使用最优登记表格的逻辑元素的坐标对数据进行再提取;
图19为示出了根据第二实施方式的表格数据提取装置中的第二登记表格选择处理的流程图;
图20为示出了输入表格的一个例子的图;
图21为示出了所选择的最优登记表格一个例子的图;
图22为示出了最大图形之间的交叠的一个例子的图;
图23为示出了所选择的第二登记表格的一个例子的图;
图24为示出了在根据第二实施方式的表格数据提取装置中提取第二登记表格数据的处理的流程图;
图25为示出了最优登记表格的一个例子的图;
图26为示出了第二登记表格的一个例子的图;
图27为示出了最终提取的输入表格数据的一个例子的图;
图28为示出了根据第三实施方式的表格数据提取装置的处理的流程图;
图29为示出了输入表格一个例子的图;
图30为示出了登记表格的图,其中输入表格的中上部匹配;
图31为示出了登记表格的图,其中输入表格的中下部匹配;
图32为示出了使用多个登记表格数据执行图形处理而获得的结果的一个例子的图;和
图33为执行表格数据提取程序的计算机系统的一个例子的图。
具体实施方式
以下将参照附图详细描述表格数据提取程序的实施方式。以下将依次描述实施方式中所用的主要术语、根据这些实施方式的表格数据提取装置的概略和特性、表格数据提取装置的配置以及处理流程,并且将在最后描述这些实施方式的各种变型。
(第一实施方式)
首先,以下将描述根据第一实施方式的表格数据提取的概略和特性。根据第一实施方式的表格数据提取装置包括:登记表格存储数据库,其内预先存储有多个表格(比如结算单、帐单、职员表等);公共逻辑结构数据库,其内存储有逻辑结构,该逻辑结构表现了逻辑元素、逻辑元素的位置信息和各种表格的逻辑元素之间的关系;和OCR(光学字符识别),其将打字文件的图像转化为可以由计算机编辑的格式(字符编码串)。
在这种配置中,根据第一实施方式的表格数据提取装置概略为:根据存储在公共逻辑结构数据库中的逻辑结构,提取出输入的输入表格的逻辑结构。特别地,作为特性特征,可容易提取不是登记表格的数据,并且可容易形成新的登记表格。
更特别地说,在根据第一实施方式的表格数据提取装置中,即使输入了不具有存储在公共逻辑结构数据库中的逻辑结构的输入表格,通过使用现有逻辑结构中的逻辑元素(比如标题等)和根据该逻辑结构获得的登记表格,也可从输入表格中提取出逻辑元素的位置信息(比如标题的重心、坐标等)、逻辑元素之间的关系(比如标题之间的距离等)、逻辑元素和逻辑结构,并且可以将提取出的逻辑结构定义为新的登记表格或者新的逻辑结构。结果,可容易地甚至从没有预先登记的表格中提取数据,并且可容易形成新的登记表格,不需要为从不具有存储在公共逻辑结构数据库中的逻辑结构的输入表格中提取逻辑元素等而人工形成和登记一登记表格。
以下将参照图1描述表格数据提取装置的配置。图1为示出了根据第一实施方式的表格数据提取装置配置的框图。如图1所示,表格数据提取装置10包括输入接受单元11、显示单元12、存储单元20和控制单元30。
输入接受单元11接受各种表格。更具体地,输入接受单元11接受如图2所示的纸介质表格图像,使OCR读取图像,或者通过网络或者各种存储介质接受文件格式的表格图像数据,以将所接受的数据输出到输入/输出控制I/F(接口)单元31(将在以下描述)。图2为示出了输入表格一个例子的图。
显示单元12包括监视器(显示器或者触摸面板)和扬声器,以便输出各种信息。例如,显示单元12通过输入/输出控制I/F单元31显示并输出控制单元30(将在稍后描述)所识别出的输入表格等。
存储单元20存储有控制单元30执行各种处理所必需的数据和程序,并且存储单元20尤其包括作为与本发明紧密相关的构件的登记表格数据库21、公共逻辑结构数据库22和登记表格数据数据库23。
登记表格数据库21预先存储有多个表格。更具体地,例如将预先识别出的或者人工登记的多个不同类型的表格(诸如结算单、帐单和职员表)作为登记表格存储在登记表格数据库21中。例如,登记表格数据库21将图3所示的表格存储为登记表格。图3为示出了存储在登记表格数据库21中的登记表格和作为输入表格识别结果的逻辑结构的一个例子的图。图3中的登记表格几乎与图2中的输入表格相同。登记表格可局部地不同于输入表格。
公共逻辑结构数据库22存储有逻辑结构,该逻辑结构示出了各种表格中的逻辑元素和这些逻辑元素之间的关系。更具体地,例如,公共逻辑结构数据库22存储有逻辑结构,在逻辑结构中描述了表示标题和数据的逻辑元素、逻辑元素之间的关系、在表格中表达逻辑元素的字符串自身、和字符串的属性等。逻辑元素之间的关系比如标题与子标题之间的关系或者标题与数据之间的关系。将"文件创建日期"的数据的主标题(上级标题)定义为标题"文件创建日期"。在这种情况中,上级标题指的是"创建日期数据"与"创建日期标题"之间的语义层次关系或者"姓"与标题"全名"之间的语义层次关系,而不是指表格图像上的层次关系。
图4所示的存储在公共逻辑结构数据库22中的逻辑结构包括:唯一分配以便区分表格上的逻辑元素的"逻辑元素编号";表示了各个逻辑元素名称的"逻辑元素名称";表示语义位置比该逻辑元素的语义位置高的逻辑元素的"上级标题";用于区分包含在各个逻辑元素名称中的字符串的"字符串编号";表示包含在各个逻辑元素名称中的字符串的"字符串";和表示各字符串与该字符串的上级逻辑元素(字符串)之间关系的"与上级位置之间的关系"。描述为:"文件创建日期"的标题以"创建日期"、"日期"和"年、月和日"等形式出现。假定使用常规表达法比如"*年*月*日"或者"*/*/*"将可能的描述存储起来作为"文件创建日期"数据。形成了用于各种类型的表格中的各逻辑结构。比如,公共逻辑结构数据库22存储"1,标题,无,1,估计表、无"、"2,运输目的地数据,无,1,公司,无"、"-,-,-,2,(公司),无"等,作为"逻辑元素编号、逻辑元素名称、上级标题、字符串编号、字符串和与上级标题之间的关系"。图4为示出了存储在公共逻辑结构数据库22中的逻辑结构一个例子的图。
登记表格数据数据库23与登记表格数据库21中存储的各种表格相关联地存储登记表格数据,该登记表格数据表示根据存储在公共逻辑结构数据库22中的逻辑结构获得的登记表格的逻辑元素、逻辑元素的位置信息和的逻辑元素之间的关系。更具体地,登记表格数据数据库23存储如图5所示的登记表格数据,该登记表格数据由逻辑结构识别单元32(稍后将对其描述)提取并存储。登记表格数据数据库23可以存储评估值等,该评估值表示由创建日期表达的数据的崭新度等。
作为如图5所示的存储在登记表格数据数据库23中的登记表格数据,唯一区分所提取出的逻辑元素的逻辑元素编号"编号"和表示所提取出的逻辑元素的逻辑元素名称"逻辑元素"被存储起来。给出了与公共逻辑结构对应的逻辑元素,作为逻辑元素。此外,作为登记的表格数据,还存储有表示从各登记表格中提取出的逻辑元素字符串的"字符串"、表示所提取出的逻辑元素(字符串)在登记表格上的坐标的"坐标"和表示所提取出的字符串的重心的"重心"。比如,登记表格数据数据库23存储作为"编号,逻辑元素,字符串,坐标,重心"的"1,名称,估计表,(100,10—160,30),(130,20)"等。在这种情况下,将坐标表达为矩形"x,y—x,y",其中分别将表格上的左端、向右的方向和向下的方向定义为"0,0"、"x"和"y"。图5为示出存储在登记表格数据数据库23中的登记表格数据例子的图。
控制单元30具有内部存储器以便存储控制程序比如OS(操作系统)、管理各种步骤等的程序和所需要的数据,并且控制单元30包括作为尤其是与本发明相关的单元的输入/输出控制I/F单元31、逻辑结构识别单元32、逻辑结构比较单元33、最优登记表格选择单元34和登记表格生成单元35。控制单元30使用这些单元执行各种处理。因为将在图7之后的解释中详细地描述控制单元30的功能单元的详细处理,在此描述这些功能单元的概略。
输入/输出控制I/F单元31将各种信息显示在显示单元12上,并且通过显示单元12接受用户操作。更具体地,输入/输出控制I/F单元31将输入接受单元11所接收到的表格作为表格图像而输出到逻辑结构识别单元32,并且将登记表格生成单元35对表格进行识别的识别结果作为新的登记表格而显示并输出到显示单元12上。
逻辑结构识别单元32提取与存储在登记表格数据库21中的各种表格相关的登记表格数据,并且将所述登记表格数据存储在登记表格数据数据库23中,该登记表格数据表示根据存储在公共逻辑结构数据库22中的逻辑结构获得的登记表格上的逻辑元素、逻辑元素的位置信息和逻辑元素之间的关系。针对输入接受单元11接收到的输入表格,逻辑结构识别单元32根据存储在公共逻辑结构数据库22中的逻辑结构,提取输入表格数据并且将该输入表格数据输出到逻辑结构比较单元33(稍后将对其描述),该输入表格数据表示输入表格上的逻辑元素、逻辑元素的位置信息和逻辑元素之间的关系。
例如,针对如图3所示的存储在登记表格数据库21中的登记表格,逻辑结构识别单元32根据存储在公共逻辑结构数据库22中的逻辑结构"逻辑元素编号、逻辑元素名称、上级标题、字符串编号、字符串、与上级标题之间的关系",提取登记表格数据,并且将登记表格数据存储在登记表格数据数据库23中,如图5所示,该登记表格数据表示登记表格上的逻辑元素、逻辑元素的位置信息和逻辑元素之间的关系。在这种情况中,可以将评估值等与基于创建日期的数据关联起来。类似地,当输入接受单元11接收如图2所示的输入表格时,逻辑结构识别单元32根据存储在公共逻辑结构数据库22中的逻辑结构"逻辑元素编号、逻辑元素名称、上级标题、字符串编号、字符串、与上级标题之间的关系",提取输入表格数据,并且将该输入表格数据输出到逻辑结构比较单元33(稍后将对其描述),如图6所示,该输入表格数据表示(a)输入表格上的逻辑元素、(b)逻辑元素的位置信息和(c)逻辑元素之间的关系。图6为示出了从输入表格中提取出的正确逻辑结构和识别出的逻辑结构例子的图。因为将要提取的信息和存储为登记表格的信息具有相同内容,因此使用将要提取的内容选择表格,并且对数据区域进行校正。同时,可容易地新形成登记表格。在这种情况中,假定由于OCR所导致的字符错误、逻辑结构识别错误等的原因,提取了表格上的另一日期作为实际上要提取的逻辑元素"创建日期"的标题和数据。
逻辑结构比较单元33将逻辑结构识别单元32所提取的输入表格数据与存储在登记表格数据数据库23中的所有登记表格数据进行比较。更具体地,比如,通过将存储在登记表格数据数据库23中的所有登记表格数据(如图5所示)与逻辑结构识别单元32所提取出的输入表格数据(如图6所示)进行比较而获得的结果被输出到最优登记表格选择单元34。
更具体地说,当逻辑结构比较单元33假定存在M个登记表格并且存在N个逻辑元素的时候,由(x_ij,y_ij)给出了从逻辑元素"i"观察时的位置"j"。当通过将输入表格数据的位置(x_ij(in),y_ij(in))与登记表格数据m(<M)的位置(x_ij(m),y_ij(m))进行比较而获得的结果是预定阈值或者更小值的时候,图5中的矩阵节点"i"和"j"互相连接起来。登记表格的逻辑元素依序设置在图形的顶点,并且位置关系与输入表格的位置关系相同的两个逻辑元素通过线而互相连接起来。如下地对两个逻辑元素之间的关系是否互相相同进行检查。比如,对距离的平方和"J=(x_ij(in)-x_ij(m))2+(y_ij(in)-y_ij(m))2"进行计算,并且对该平方和进行阈值处理,具有等于或小于阈值的值的两个逻辑元素具有相同的位置关系。对登记表格进行这种处理,从而使登记表格与输入表格之间的类似性被表达为图形上的线条数量。逻辑结构比较单元33提取最大局部图形(团组),在该最大局部图形中,对上述获得的互相连接起来的图形进行提取,并且将逻辑元素(最大局部图形的顶点)的数量计算为评估值,从而计算出与登记表格数据m对应的输入表格数据中的逻辑元素的数量(Cm)。
当通过比如扫描仪输入而将表格数据收集为数字数值的时候,坐标值被确定表格大小和图像大小的DPI(每英寸点数)所除、标准化和使用,从而可以独立于图像大小而将相同的表格处理为相同大小的表格。
最优登记表格选择单元34根据逻辑结构识别单元32所提取的输入表格数据,利用逻辑结构比较单元33的比较结果而指定登记表格数据数据库23中的类似于输入表格数据的登记表格数据。更具体地,例如,最优登记表格选择单元34获得了在评估值"Cm"中具有最大值的登记表格数据"m",并且将该登记表格数据输出到登记表格生成单元35,评估值"Cm"是通过逻辑结构比较单元33对登记表格数据数据库23中的所有登记表格数据进行逻辑结构比较而获得的。在这种情况下,使用最终时间的时戳"Tm",作为根据将要使用表格的时段对"Cm"进行加权所获得的量,最终时间是登记表格数据"m"被比较的时间,并且可以将通过"Dm=Cm/(T-Tm)"给出的"Dm"作为评估值使用。"T"在此表示当前时间。
登记表格生成单元35根据最优登记表格选择单元34所指定(选择)的类似于输入表格数据的登记表格数据的逻辑元素的位置信息和逻辑元素之间的关系,从输入表格中再次提取输入表格数据,提取无法从输入表格数据中再次提取的逻辑元素,并且生成作为新的登记表格数据的再次提取的输入表格数据。更具体地,例如,登记表格生成单元35根据最优登记表格选择单元34所指定(选择)的具有最大值"Cm"的登记表格数据"m"的逻辑元素的位置信息和逻辑元素之间的关系,从输入表格中再次提取输入表格数据,提取无法从输入表格数据再次提取的逻辑元素,将所提取的输入表格的逻辑结构和区域数据生成为新的登记表格数据,并且将逻辑结构和区域数据存储在登记表格数据数据库23中。
以下将参照图7到图18描述了表格数据提取装置所执行的处理。首先,将参照图7描述表格数据提取装置中的整体处理的流程。图7为示出了根据第一实施方式的表格数据提取装置中的整体处理流程的流程图。
如图7所示,当输入接受单元11接受了输入表格时(步骤S101中的是),表格数据提取装置10确定所接受的输入表格的类型,并且执行逻辑结构识别处理,其中根据存储在公共逻辑结构数据库22中数据的逻辑结构而提取输入表格数据(其为输入表格的逻辑结构)(步骤S102)。可以根据存储在公共逻辑结构数据库22中的逻辑结构而预先执行登记表格的逻辑结构识别处理,并存储在登记表格数据数据库23中,或者可以在输入接受单元11接受输入表格的时候执行登记表格的逻辑结构识别处理,并且存储在登记表格数据数据库23。
随后,表格数据提取装置10执行逻辑元素比较处理,该逻辑元素比较处理将所提取出的输入表格数据与存储在登记表格数据数据库23中的所有登记表格数据进行比较(步骤S103),并且借助逻辑元素比较处理的结果而执行最优登记表格选择处理,该最优登记表格选择处理指定了登记表格数据数据库23中的类似于输入表格数据的登记表格数据(步骤S104)。
此后,表格数据提取装置10根据最优登记表格选择单元34所指定(选择)的类似于输入表格数据的登记表格数据的登记表格数据的逻辑元素的位置信息和逻辑元素之间的关系,执行登记表格生成处理,该登记表格生成处理从输入表格中再次提取输入表格数据,提取无法从输入表格数据中再次提取的逻辑元素,并且将再次提取的输入表格数据生成为新的登记表格数据(步骤S105)。
以下将参照图8描述逻辑结构识别处理。图8为示出了根据第一实施方式的表格数据提取装置中的逻辑结构识别处理的流程的流程图。
如图8所示,表格数据提取装置10的逻辑结构识别单元32从公共逻辑结构数据库22中获得了逻辑结构,并且对输入表格的表格图像执行字符识别和表格识别(步骤S201)。此后,将所获得的逻辑结构中描述的逻辑元素与输入表格中的字符串关联起来,并且将所述逻辑元素输出到逻辑结构比较单元33(步骤S202)。
作为字符提取或者逻辑结构识别的一般方法,逻辑结构识别单元32通过文字提取等获得了输入表格中的逻辑元素的一组候选字符串。此后,逻辑结构识别单元32通过使用存储在公共逻辑结构数据库22中的逻辑结构(逻辑元素之间的关系或者布局中的逻辑元素之间的关系)而分别将文字提取获得的候选文字分配给逻辑元素。此后,逻辑结构识别单元32执行逻辑结构识别,以便确定输入表格图像上对应于逻辑元素的字符串,并且可以获得逻辑元素、表格上对应的字符串和字符串的位置坐标。
以下将参照图9到图12描述逻辑元素比较处理和最优登记表格选择处理。图9为示出了根据第一实施方式的表格数据提取装置中的逻辑元素比较处理的流程的流程图。
如图9所示,逻辑结构比较单元33利用逻辑结构识别单元32提取的输入表格数据来提取的输入表格数据来执行图形生成处理,而提取所述输入表格数据的逻辑元素之间的关系(步骤S301)。
更具体地说,如图10所示,逻辑结构比较单元33对公共逻辑结构数据库22中的逻辑元素进行编号,将逻辑元素定义为节点,并且执行图形生成,在该图形生成中,当在登记表格"m"的登记表格数据和输入表格数据中,两个逻辑元素"i"与"j"之间的关系是阈值或者更小值的时候,则将节点"i"与"j"互相连接起来。图10为示出了所计算出的图形一个例子的图。
逻辑结构比较单元33执行团组处理,该团组处理参照所形成的图形将具有相同位置关系的逻辑元素连接起来(步骤S302),并且最优登记表格选择单元34从所形成的团组中选择最大团组,在该最大团组中,互相连接有最大数量的逻辑元素(步骤S303)。相对于最大团组的提取而给出文件。
更具体地说,如图11所示,当逻辑结构比较单元33参照所形成的图形执行将具有相同位置关系的逻辑元素连接起来的团组过程的时候,逻辑结构比较单元33获得了团组结果,该团组结果包括两个完美的局部图形,即相对于输入图像和登记表格的组合的具有三个节点的完美局部图形和具有两个节点的完美局部图形。在这种情况中,因为完美局部图形表达了"具有相同位置关系的逻辑元素的数量",因此数量的最大值是互相之间非常类似的两个表格中的一组逻辑元素。虽然获得了针对一个登记表格的多个完美(perfect)局部图形,然而,在此情况下,这些完美局部图形中具有最大尺寸的完美局部图形(最大团组)为3。因此3被定义为与登记表格之间的类似程度。对所有登记表格执行以上过程。如图12所示,最优登记表格选择单元34将具有三个节点的完美局部图形定义为登记表格数据"m"的针对输入表格数据的类似程度"Cm=3"的完美局部图形,并且提取将最大值赋予与所有登记表格之间的类似程度"Cm"的数值m,并且将该m输出到最优登记表格选择单元34。图11为示出了将要形成的团组一个例子的图,而图12为示出了最大团组选择例子的图。
以下将参照图13到图18描述数据提取处理。图13为示出了在根据第一实施方式的表格数据提取装置中从最优登记表格中提取数据的处理的流程的流程图。
如图13所示,假定登记表格生成单元35根据最优登记表格选择单元34所选择的类似程度为"Cm=3"的登记表格数据,将固定标记赋予构成了最大局部图形的逻辑元素,即,对给出了类似程度"Cm=3"的完美局部图形的顶点的逻辑元素使用输入图像的固定标记,并且将这些逻辑元素存储为确定元素(步骤S401)。
更具体地,例如,如图14所示,登记表格生成单元35将"1.表格名,2.运输目的地数据,5.发送方标题"描述为最优登记表格选择单元34所选择的具有"Cm=3"的类似程度的登记表格数据的整个图形中的确定元素,并且将固定标记赋予这些逻辑元素。更具体地,可以针对经削减的"1.标记,2.运输目的地数据,5.发送方标题",从登记表格数据中提取出数据。必须对除此之外的"3.创建日期标题,4.创建日期数据"进行数据再提取。图14为示出了数据再提取项一个确定例子的图。将没有被赋予固定标记的逻辑元素定义为再提取项。
随后,登记表格生成单元35计算存储在登记表格数据数据库23中的最大局部图形中的登记表格数据和输入表格数据的逻辑元素的坐标偏移量(步骤S402),并且计算所计算出的坐标偏移量的平均值(步骤S403)。此后,登记表格生成单元35将把所计算出的平均偏移量添加到登记表格的数据提取区域所获得的区域定义为输入表格的对不具有固定标记的逻辑元素的数据提取区域(步骤S404),并且对数据(字符类型)进行再提取。当存在对应于该数据(字符类型)的字符串时(步骤S405中的是),则将固定标记赋予所计算出的提取区域(步骤S406),并且将被赋予固定标记的逻辑元素存储起来(步骤S407)。
另一方面,当不存在对应于该数据(字符类型)的字符串时(步骤S405中的否),则该提取区域被改变为初始状态的输入表格的提取区域(步骤S408),并且将被赋予固定标记的逻辑元素存储起来(步骤S407)。这里所假定的坐标偏移用于抵消每次扫描时发生的不平度,比如对纸张进行扫描时发生的左右边缘不平以及上下边缘不平。
更具体地,例如,因为可以计算出存储在登记表格数据数据库23中的完美局部图形中的登记表格数据(参照图5)和输入表格数据(参照图6)的逻辑元素坐标之间的偏移,即因为可以从图16所示的输入表格中提取出图15所示的登记表格上的"表格名,运输目的地数据,运输目的地标题",因此可计算出登记表格中的"表格名,运输目的地数据,运输目的地标题"的坐标与输入表格中的"表格名,运输目的地数据,运输目的地标题"的坐标之间的差异,该差异没有构成完美局部图形,并且可以由登记表格生成单元35计算出将要再提取的逻辑元素"创建日期标题,创建日期数据"在输入表格上的坐标。作为图17所示的对输入表格进行逻辑结构识别的结果,计算出登记表格在构成了完美局部图形的"表格名"、"运输目的地数据"与"发送方数据"的坐标之间的偏移量5。
登记表格生成单元35将所计算出的偏移添加到再提取的登记表格数据中的逻辑元素"创建日期标题,创建日期数据"的坐标中,并且从输入表格中添加后的区域中提取"创建日期标题,创建日期数据",登记表格生成单元35对这些位置执行字符识别,使在将接受图17所示的输入表格时的逻辑识别结果的"创建日期标题,运输日期,(35,100-85,120),(55,110)"和"创建日期数据,2007年6月1日,(85,120-135,140),(110,130)"分别被替换为通过将数值为5的偏移量添加到登记表格的坐标中而获得的如图18所示的"创建日期数据,日期,(105,10-145,30),(125,20)"和"创建日期,2007年4月1日,(155,10-215,30),(185,20)"。当存在必要的字符串时,可以形成数据。在这种情况中,因为可以将字符类型仅仅指定为目标区域中的数字或者特定字符,并且对字符类型进行识别,因此也提高了OCR的字符识别精度。图15为示出了登记表格一个例子的图,而图16为示出了输入表格一个例子的图,并且图16为在其中将具有创建日期标题和创建日期数据的字符串提取为逻辑元素的图,创建日期标题和创建日期数据分别不同于正确的创建日期标题和创建日期数据。图17为示出了在接受输入表格时的逻辑结构识别结果一个例子的图。图18为示出了一个例子的图,在该例子中,借助最优登记表格的逻辑元素的坐标对数据再提取。
如上所述,根据第一实施方式,与存储在登记表格数据库21中的各种表格相关联地存储登记表格数据,登记表格数据表示根据存储在公共逻辑结构数据库22中的逻辑结构获得的登记表格中的逻辑元素、逻辑元素的位置信息和逻辑元素之间的关系。对于输入表格而言,根据存储在公共逻辑结构数据库22中的逻辑结构对输入表格数据进行提取,该输入表格数据表示输入表格上的逻辑元素、逻辑元素的位置信息和逻辑元素之间的关系。根据所提取出的输入表格数据,在登记表格数据数据库23中指定类似于输入表格数据的登记表格数据。根据类似于所指定的输入表格数据的登记表格数据的逻辑元素的位置信息和逻辑元素之间的关系,从输入表格中再次提取输入表格数据,从输入表格数据中提取无法再提取的逻辑元素,并且将再提取的输入表格数据生成为新的登记表格数据。为此,甚至可以在没有预先登记的表格中容易地提取出数据,并且可容易地形成新的登记表格。
根据第一实施方式,在输入表格对应于登记表格的时候,另外使用登记表格信息,并且对标题和数据的位置进行校正。然而,即使没有将输入表格包含在登记表格中,也可以将逻辑结构识别结果作为数据提取结果而输出。此外,因为提取所必需的标题和数据的信息被定义为登记表格信息,因此该信息也可用于不具有对提取而言并非必要的规则线条和符号信息的表格。
根据第一实施方式,针对登记表格数据的各逻辑元素,将表示对逻辑元素进行提取的时间和日期所进行的加权的评估值存储起来。根据所提取出的输入表格数据和登记表格数据的逻辑元素评估值,在登记表格数据数据库23中指定了类似于所提取出的输入表格数据的登记表格数据。为此,即使登记表格中包括大量当前没有使用的表格,也可以利用各登记表格执行最后识别的时间从当前使用的表格中选择多个登记表格。
根据第一实施方式,将所提取出的输入表格数据中的各个逻辑元素的外接矩形的四个顶点与存储在登记表格数据数据库23中的登记表格数据中的各逻辑元素的外接矩形的四个顶点进行比较,从而确定了输入表格数据中与登记表格数据中的各逻辑元素对应的特定逻辑元素,以便指定登记表格数据数据库23中的与输入表格数据类似的登记表格数据。为此,对无法容易地仅仅从重心读取的区域的高度或宽度进行评估,从而可以更加精确地指定最优登记表格数据和二次表格登记表格数据。
(第二实施方式)
根据本发明,在无法通过根据第一实施方式的数据提取方法提取适当数据的时候,比如当数据没有与所指定的字符类型匹配的时候,则可能不存在完美地与输入表格匹配的登记表格。这种情况中,准备了局部类似于输入表格的多个其他登记表格,从而可以执行数据提取。
因此,第二实施方式描述了一个例子,在该例子中,在无法从被定义为类似于输入表格数据的登记表格数据中提取某些数据的时候,进一步使用了局部地类似于输入表格的另一种表格(第二登记表格),以便执行数据提取。
以下将参照图19到图23描述第二登记表格选择处理的流程。图19为示出了根据第二实施方式的表格数据提取装置中的第二登记表格选择处理的流程的流程图。
如图19所示,表格数据提取装置10的逻辑结构比较单元33对变量"m(=1)"进行设定,以便依序引用存储在登记表格数据数据库23中的登记表格数据(步骤S501),并且确定变量"m(=1)"的登记表格数据是否为被指定为最优登记表格的表格(步骤S502)。
如果变量"m(=1)"的登记表格数据不是被指定为最优登记表格的表格(步骤S502中的否),则逻辑结构比较单元33对变量"m(=1)"的登记表格数据的最大局部图形进行提取(步骤S503),并且计算变量"m(=1)"的登记表格数据的最大局部图形相对于被指定为最优登记表格的登记表格数据的最大局部图形的交叠数量(步骤S504)。
随后逻辑结构比较单元33确定所计算出的交叠数量是否大于当前存储的最大值(步骤S505)。当计算出的交叠数量大于当前存储的最大数值时(步骤S505中的是),则将具有该交叠数量的登记表格数据"m"存储在存储器等内(步骤S506),并且"m"递增"1"(步骤S507)。当"m"小于存储在登记表格数据数据库23中的登记表格数据的登记数"M"时(步骤S508中的是),则重复步骤S502到步骤S508中的处理。
另一方面,当变量"m(=1)"的登记表格数据为被指定为最优登记表格的表格时(步骤S502中的是),或者当所计算出的交叠数量小于当前存储的最大值时(步骤S505中的否),则逻辑结构比较单元33将"m"递增"1"(步骤S507)。当"m"小于存储在登记表格数据数据库23中的登记表格数据的登记数"M"(步骤S508中的是)时,则重复步骤S502到步骤S508中的处理。
当"m"大于存储在登记表格数据数据库23中的登记表格数据的登记数"M"(步骤S508中的否)时,逻辑结构比较单元33结束该处理。
更具体地,当接受如图20所示的输入表格以便识别逻辑结构时,逻辑结构比较单元33将图21所示的登记表格选择为最优登记表格。此时,逻辑结构比较单元33可以从图21所示的登记表格(登记表格数据)中提取"表格名(估计表),运输目的地数据(B公司),发送方数据(A公司)"。然而,无法提取"创建日期标题,创建日期数据",这是因为"创建日期标题,创建日期数据"相对于登记表格中的"发送方数据(A公司)"的位置关系不同于在输入表格中的位置关系。
因此如上所述,逻辑结构比较单元33计算与最优登记表格之外的变量"m"的登记表格数据有关的最大局部图形与被指定为最优登记表格的登记表格数据的最大局部图形之间的交叠"标题(估计表),运输目的地数据(B公司),发送方数据(A公司)"的数量,并且将具有等于或者高于阈值和最大值的登记表格数据"m"选择为第二登记表格。此时,由最优登记表格所确定并且此时包含在最大局部图形中的逻辑元素为"运输目的地数据(A公司)",而没有包含在最优登记表格中的逻辑元素为具有与"运输目的地数据(A公司)"相同位置关系的"创建日期标题,创建日期数据"(参照图23)。可以通过这种方式确定没有被最优登记表格确定的逻辑元素"创建日期标题,创建日期数据"的位置。图20为示出了输入表格的一个例子的图,而图21为示出了选择的最优登记表格一个例子的图。图22为示出了最大图形之间交叠的一个例子的图,而图23为示出了选择第二登记表格一个例子的图。
以下将参照图24到图27描述第二登记表格数据提取过程的流程。图24为示出了根据第二实施方式的表格数据提取装置中的第二登记表格数据提取的流程的流程图。
如图24所示,登记表格生成单元35将逻辑结构比较单元33所选择的第二登记表格数据的整个图形中的最大局部图形的元素存储为确定元素,并且(a)赋予固定标记(步骤S601),(b)计算存储在登记表格数据数据库23中的最大局部图形的第二登记表格数据中的最优登记表格和输入表格数据中的交叠的逻辑元素的坐标之间的偏移量(步骤S602),并且(c)计算所计算出的坐标之间的平均偏移量(步骤S603)。
此后登记表格生成单元35通过将所计算出的平均偏移量添加到登记表格的数据提取区域中而获得的区域限定为第二登记表格所确定的逻辑元素的输入表格的数据提取区域(步骤S604),并且对数据(字符类型)进行再提取。当存在对应于数据(字符类型)的字符串时(步骤S605中的是),登记表格生成单元35将固定标记赋予所计算出的提取区域(步骤S606),并且将被赋予固定标记的逻辑元素存储起来(步骤S607)。
另一方面,当不存在对应于数据(字符类型)的字符串时(步骤S605中的否),则将区域改变为初始状态下的输入表格的提取区域(步骤S608),并且将被赋予固定标记的逻辑元素存储起来(步骤S607)。这里所假定的坐标之间的偏移用于抵消每次扫描时发生的不平度,比如对纸张进行扫描时发生的左右边缘不平以及上下边缘不平。
更具体地,如上所述,在图26所示并且被选择用于提取无法从图25所示的被指定的最优登记表格数据中提取的"表格名(估计表),运输目的地数据(B公司),发送方数据(A公司)"的第二登记表格数据中,登记表格生成单元35提取与最优登记表格数据及输入表格数据匹配的逻辑元素"发送方"的坐标与输入表格数据中的"发送方"的坐标之间的偏移。登记表格生成单元35通过使用基于第二登记表格数据的"创建日期标题,创建日期数据"坐标而考虑到偏移所确定的坐标,从输入表格中提取"创建日期标题,创建日期数据",并且将输入表格数据时所生成的输入表格数据中的"创建日期标题,创建日期数据"存储起来,从而可以获得如图27所示的输入表格数据的提取结果。图25为示出了最优登记表格一个例子的图,图26为示出了第二登记表格一个例子的图,而图27为示出了最终提取出的输入表格数据一个例子的图。
(第二实施方式的效果)
通过这种方式,根据第二实施方式,当接收到请求在类似于输入表格数据的登记表格数据之外指定也类似于输入表格数据的登记表格数据的表格指定请求时,在所指定的登记表格数据之外的登记表格数据中指定类似于输入表格数据的第二登记表格数据。根据类似于所指定的输入表格数据的登记表格数据的逻辑元素的位置信息和逻辑元素之间的关系,从输入表格中对输入表格数据进行再提取。当存在无法从输入表格中再提取的逻辑元素时,根据传送表格指定请求而获得的第二登记表格数据的逻辑元素的位置信息和逻辑元素之间的关系,从输入表格中再提取输入表格数据,并且将再提取的输入表格数据生成为新的登记表格数据。为此,对于无法从最类似于输入表格的登记表格数据中提取的数据可以借助第二登记表格数据来执行数据提取。结果,可以以较高精度生成重现输入表格的登记表格数据。
(第三实施方式)
第二实施方式描述了一个例子,在该例子中,当无法从最优登记表格中提取数据时,再次选择登记表格数据(第二登记表格数据)以便提取输入表格数据。然而,本发明并不限制于第二实施方式。当无法提取输入表格数据时,可以预定次数地选择登记表格数据(n级登记表格数据),以便能够提取输入表格数据。
因此,第三实施方式描述了一个例子,在该例子中,当无法提取输入表格数据时,可以预定阶数地选择登记表格数据(n级登记表格数据),以便能够提取输入表格数据。
在第三实施方式中,借助图28描述了当无法提取输入表格数据时预定次数地选择的登记表格数据(n级登记表格数据)和提取输入表格数据处理的流程图。图28为示出了根据第三实施方式的表格数据提取装置的处理流程的流程图。因为图28中的步骤S701到步骤S707中的程序与第一实施方式中描述的图8、图9和图13中的处理相同,并且与第二实施方式中描述的图19和图24中的处理相同,因此在此不再重复对过程的详细描述。以下将描述不同于第一实施方式和第二实施方式中的处理(步骤S708到步骤S715)。
如图28所示,在完成第二登记表格数据提取之后,表格数据提取装置10的登记表格生成单元35将"3"分配给变量"n"(步骤S708),并且将预先提取出的逻辑元素组合起来(步骤S709)。
随后,逻辑结构比较单元33通过与第一实施方式和第二实施方式相同的方法从登记表格数据数据库23中选择类似于输入表格数据的登记表格数据(第n级登记表格数据)(步骤S710),并且确定所选择的第n级登记表格数据是否与所提取出的逻辑元素交叠数量为阈值或者更大的数值(步骤S711)。
当选择出的第n级登记表格数据与所提取出的逻辑元素交叠数量为阈值或者更大数值时(步骤S711中的是),则登记表格生成单元35通过与第一实施方式或者第二实施方式的方法相同的方法借助所选择的第n级登记表格数据从输入表格中提取数据(步骤S712),并且将"n"递增"1"(步骤S713)。当"n"小于存储在登记表格数据数据库23中的登记表格数据的登记数"N"的时候(步骤S714中的是),则重复步骤S709到步骤S714中的处理。
当选择的第n级登记表格数据与所提取出的逻辑元素没有交叠数量为阈值或者更大数值时(步骤S711中的否),或者当"n"大于存储在登记表格数据数据库23中的登记表格数据的登记数"N"的时候(步骤S714中的否)的时候,则登记表格生成单元35将通过该方法所提取的输入表格数据存储在登记表格数据数据库23中作为新的登记表格数据(步骤S715),并且结束该处理。
以这种方式,根据第三实施方式,在每次接收表格指定请求时,在所指定的登记表格数据之外的登记表格数据中指定类似于输入表格数据的登记表格数据,并且根据该类似于输入表格数据的指定登记表格数据的逻辑元素的位置信息和逻辑元素之间关系,从输入表格对输入表格数据进行再提取。当存在无法从输入表格再提取的逻辑元素时,在以预定次数重复传送表格指定请求之后,生成再提取的输入表格数据作为新的登记表格数据。为此,可以正确地生成正确地重现输入表格的登记表格数据。
(第四实施方式)
以上已经描述了根据本发明的实施方式。然而,可以以这些实施方式配置之外的各种不同配置执行本发明。因此如下面将描述的那样,以下将描述不同的实施方式从而将实施方式分为(1)数据提取方法,(2)类似登记表格数据指定方法,(3)系统配置等,和(4)程序。
(1)数据提取方法
例如,根据本发明,在提取出的输入表格数据具有多个区域的情况下,当登记表格数据数据库23中具有仅与这些区域中的一些区域匹配的区域的多个登记表格数据时,根据在该多个指定登记表格数据的逻辑元素的位置信息和逻辑元素之间关系,从输入表格中再提取出多个输入表格数据,并且可以将所述多个再提取出的输入表格数据互相组合起来,从而将输入表格数据生成为新的登记表格数据。
比如,当输入如图29所示的输入表格时,表格数据提取装置10将图29所示的输入表格分割为上部区域、中部区域和下部区域。表格数据提取装置10在登记表格数据数据库23中指定了登记表格1(登记表格数据1)和登记表格2(登记表格数据2)。如图30所示,登记表格1具有与输入表格的中上部匹配的一部分。如图31所示,登记表格2具有与输入表格的中下部匹配的一部分。对登记表格1和登记表格2经受第一实施方式中描述的图形处理等,从而生成如图32所示的图形。表格数据提取装置10使用与登记表格数据1和登记表格数据2匹配的区域信息(坐标)从输入表格中再提取数据,并且将再提取出的多个输入表格数据互相组合起来,以便将输入表格数据生成为新的登记表格数据。图29为示出了输入表格的一个例子的图,而图30为示出了具有与输入表格的中上部匹配的一部分的登记表格的图。图31为示出了具有与输入表格的中下部匹配的一部分的登记表格的图,而图32为示出了通过使用多个登记表格数据执行图形处理而获得的结果的一个例子的图。
(2)类似登记表格数据指定方法
本发明中,除了对提取出的输入表格数据中的各逻辑元素的外接矩形的四个顶点与存储在登记表格数据数据库23中的登记表格数据中的每个逻辑元素的外接矩形的四个顶点进行比较之外,也对所提取出的输入表格数据的逻辑元素的重心与存储在登记表格数据数据库23中的登记表格数据的重心进行互相比较,以便确定输入表格数据中对应于登记表格数据中的各逻辑元素的特定逻辑元素,从而可以在登记表格数据数据库23中指定类似于输入表格数据的登记表格数据。
(3)系统配置等
所示装置的构成元件为功能概念性构成元件,并且并不总是需要如附图所示地物理配置。更具体地,装置的分布和集成的具体配置并不限制在附图所示的配置中。根据不同负载或者使用状态,可以将所有或者部分装置配置成从功能或者物理上讲分布和集成于任意单元内。此外,装置中所执行的全部或者部分处理功能可以通过CPU和可以由CPU分析并执行的程序来实现,或者可以由有线逻辑获得的硬件方式实现。
在这些实施方式中描述的过程中,被描述为是自动执行的处理中的全部或者部分处理也可以人工执行。或者,被描述为人工地执行的处理的全部或者部分处理也可以根据已知方法自动执行。此外,除非文中另行指出,在本说明书和附图中描述的处理过程、控制过程、具体名称和包含各种数据或者参数的信息可任意改变。
(4)程序
这些实施方式描述的各种处理可通过执行计算机系统(比如个人计算机或者工作站)中的预备程序而实现。因此,以下将执行程序(该程序具有与以上实施方式相同的功能)的计算机系统描述为另一个实施方式。
图33为示出了执行表格数据提取程序的计算机系统一个例子的图。如图33所示,计算机系统100包括RAM(随机存储器)101、HDD(硬盘驱动器)102、ROM(只读存储器)103和CPU 104。在这种情况中,在ROM103中预先存储有与以上实施方式功能相同的程序,即如图33所示,存储有输入表格数据提取程序103a、表格确定程序103b和数据生成程序103c。
如图33所示,当CPU 104读取出并且执行这些程序103a-103c的时候,实现了输入表格数据提取处理104a、表格确定处理104b和数据生成处理104c。输入表格数据提取处理104a对应于图1所示的逻辑结构识别单元32。类似地,表格确定处理104b对应于逻辑结构比较单元33和最优登记表格选择单元34,而数据生成处理104c对应于登记表格生成单元35。
HDD 102包括:预先存储多个表格的登记表格列表102a;存储有表示各种表格中的逻辑元素和逻辑元素之间关系的逻辑结构的公共逻辑结构列表102b;和登记表格数据列表102c,登记表格数据列表102c与存储在登记表格数据库21中的各种表格相关联地存储登记表格数据,该登记表格数据表示根据存储在公共逻辑结构数据库22中的逻辑结构获得的登记表格中的逻辑元素、逻辑元素的位置信息和逻辑元素之间的关系。登记表格列表102a对应于图1所示的登记表格数据库21,公共逻辑结构列表102b对应于公共逻辑结构数据库22,而登记表格数据列表102c对应登记表格数据数据库23。
不需要总是将程序103a-103c存储在ROM 103中。例如,可以将程序103a-103c存储在:"便携式物理介质",比如软盘(FD)、CD-ROM、MO盘、DVD盘、磁光盘或者插入到计算机系统100中的IC卡中,此外还可以存储在"固定物理介质",比如设置在计算机系统100内部或外部的硬盘驱动器(HDD);和"另一个计算机系统",其通过公共线路、互联网、局域网、广域网等而与计算机系统100连接,并且由计算机系统100读取并执行。
本申请基于并要求2007年11月9日递交的在先日本专利申请第2007-292619号的优先权,这里通过引用并入该申请的全部内容。

Claims (8)

1、一种计算机可读记录介质,其上记录有表格数据提取程序,所述表格数据提取程序使计算机执行提取输入的输入表格的逻辑结构的方法,所述方法包括:
登记表格数据存储步骤,所述步骤与存储在登记表格存储单元中的各种表格相关联地,根据表示存储在公共逻辑结构存储单元中的各种表格的逻辑元素的逻辑结构和这些逻辑元素之间的关系,存储(a)登记表格数据,所述登记表格数据表示所获得的所述登记表格的逻辑元素、(b)所述逻辑元素的位置信息和(c)登记表格数据存储设备中所述逻辑元素之间的关系;
输入表格数据提取步骤,所述步骤根据存储在公共逻辑结构存储单元中的所述逻辑结构,针对所述输入表格提取(a)输入表格数据,所述输入表格数据表示所述输入表格的逻辑元素、(b)所述逻辑元素的位置信息和(c)所述逻辑元素之间的关系;
表格指定步骤,所述步骤根据所述输入表格数据提取步骤所提取的所述输入表格数据,在所述登记表格数据存储设备中指定类似于所述输入表格数据的登记表格数据;和
数据生成步骤,所述步骤根据所述表格指定步骤所指定的所述类似于输入表格数据的所述登记表格数据的逻辑元素的位置信息和这些逻辑元素之间的关系,(a)再次从所述输入表格中提取输入表格数据,(b)提取无法从所述输入表格数据中再提取的逻辑元素,并且(c)将所述再提取的输入表格数据生成为新的登记表格数据。
2、根据权利要求1所述的计算机可读记录介质,其中,所述登记表格数据存储设备存储有评估值,所述评估值表示所述登记表格数据的逻辑元素的权重,并且
所述表格指定步骤根据所述输入表格数据提取步骤所提取的所述输入表格数据和所述登记表格数据的所述逻辑元素的评估值,在所述登记表格数据存储设备中指定类似于所述输入表格数据提取步骤所提取的所述输入表格数据的登记表格数据。
3、根据权利要求1所述的计算机可读记录介质,其中,当从所述数据生成步骤接收到除请求类似于所述输入表格数据的登记表格数据之外还请求类似于所述输入表格数据的登记表格数据的表格指定请求时,所述表格指定步骤在所指定的登记表格数据之外的登记表格数据中指定类似于所述输入表格数据的第二登记表格数据,并且
所述数据生成步骤根据所述表格指定步骤所指定的类似于所述输入表格数据的所述登记表格数据的所述逻辑元素的所述位置信息和这些逻辑元素之间的关系,从所述输入表格中再提取输入表格数据,在存在无法从所述输入表格中再提取的逻辑元素时,根据通过将所述表格指定请求传送给所述表格指定步骤而获得的所述第二登记表格数据的逻辑元素的位置信息,从所述输入表格中再提取所述输入表格数据,并且将所述再提取的输入表格数据生成为新的登记表格数据。
4、根据权利要求1所述的计算机可读记录介质,其中,在每次从所述数据生成步骤中接收到所述表格指定请求时,所述表格指定步骤在所述登记表格数据存储设备中的所述指定登记表格数据之外的登记表格数据中指定类似于所述输入表格数据的登记表格数据,并且
所述数据生成步骤根据(a)所述表格指定步骤所指定的类似于所述输入表格数据的登记表格数据的逻辑元素的位置信息和(b)这些逻辑元素之间关系,从所述输入表格中再提取所述输入表格数据,并且当存在无法从所述输入表格中再提取的逻辑元素时,在以预定次数重复表格指定请求向所述表格指定步骤的传送之后,将所述再提取的输入表格数据生成为新的登记表格数据。
5、根据权利要求1所述的计算机可读记录介质,其中,在所述输入表格数据提取步骤所提取的所述输入表格数据的多个区域内,所述表格指定步骤指定了所述登记表格数据存储设备中的多个登记表格数据,所述登记表格数据具有仅仅与所述区域匹配的区域,并且
所述数据生成步骤根据所述表格指定步骤所指定的所述多个登记表格数据的逻辑元素的位置信息和这些逻辑元素之间的关系,从所述输入表格中再提取多个输入表格数据,并且将所述多个再提取的输入表格数据互相组合起来,以便将所述输入表格数据生成为新的登记表格数据。
6、根据权利要求1所述的计算机可读记录介质,其中,所述表格指定步骤将所述输入表格数据提取步骤所提取的所述输入表格数据中的各逻辑元素的外接矩形的四个顶点与存储在所述登记表格数据存储设备中的所述登记表格数据的各逻辑元素的外接矩形的四个顶点进行比较,以便确定所述输入表格数据中对应于所述登记表格数据中的各逻辑元素的特定逻辑元素,从而在所述登记表格数据存储设备中指定类似于所述输入表格数据的登记表格数据。
7、一种提取输入表格的逻辑结构的表格数据提取装置,其包括:
存储多个表格的登记表格存储单元;
公共逻辑结构存储单元,存储表示各种表格中的逻辑元素的逻辑结构和这些逻辑元素之间的关系;
登记表格数据存储单元,其与所述登记表格存储单元中存储的所述各种表格相关联地存储(a)登记表格数据,所述登记表格数据表示根据存储在公共逻辑结构存储单元中的所述逻辑结构而获得的所述登记表格上的逻辑元素、(b)所述逻辑元素的位置信息和(c)所述逻辑元素之间的关系;
输入表格数据提取单元,其根据存储在所述公共逻辑结构存储单元中的所述逻辑结构,针对所述输入表格提取(a)输入表格数据,所述输入表格数据表示所述输入表格中的所述逻辑元素、(b)所述逻辑元素的位置信息和(c)所述逻辑元素之间的关系;
表格指定单元,其根据所述输入表格数据提取单元所提取的所述输入表格数据,在所述登记表格数据存储设备中指定类似于所述输入表格数据的登记表格数据;和
数据生成单元,其根据(a)所述表格指定设备所指定的类似于所述输入表格数据的所述登记表格数据的所述逻辑元素的所述位置信息和(b)这些逻辑元素之间的关系,从所述输入表格中再提取输入表格数据,提取无法从所述输入表格数据中再提取的逻辑元素,并且将所述再提取的输入表格数据生成为新的登记表格数据。
8、一种提取输入的输入表格的逻辑结构的方法,其包括:
登记表格数据存储步骤,所述步骤与存储在登记表格存储单元中的各种表格相关联地,根据(a)表示存储在所述公共逻辑结构存储单元中的各种表格中的逻辑元素的逻辑结构和(b)所述逻辑元素之间的关系,在所述登记表格数据存储设备中存储登记表格数据,所述登记表格数据表示(c)所获得的所述登记表格上的逻辑元素、(d)所述逻辑元素的位置信息和(e)所述逻辑元素之间的关系;
输入表格数据提取步骤,其根据存储在所述公共逻辑结构存储单元中的所述逻辑结构为所述输入表格提取输入表格数据,所述输入表格数据表示(a)所述输入表格上的逻辑元素、(b)所述逻辑元素的位置信息和(c)所述逻辑元素之间的关系;
表格指定步骤,其根据所述输入表格数据提取步骤所提取的所述输入表格数据,在所述登记表格数据存储设备中指定类似于所述输入表格数据的登记表格数据;和
数据生成步骤,其根据(a)所述表格指定步骤所指定的类似于所述输入表格数据的所述登记表格数据的逻辑元素的所述位置信息和(b)所述逻辑元素之间的关系,从所述输入表格中再提取输入表格数据,提取无法从所述输入表格中再提取的逻辑元素,并且将所述再提取的输入表格数据生成为新的登记表格数据。
CN2008101741087A 2007-11-09 2008-11-07 表格数据提取装置和方法 Expired - Fee Related CN101430761B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2007292619A JP4998220B2 (ja) 2007-11-09 2007-11-09 帳票データ抽出プログラム、帳票データ抽出装置および帳票データ抽出方法
JP2007-292619 2007-11-09
JP2007292619 2007-11-09

Publications (2)

Publication Number Publication Date
CN101430761A true CN101430761A (zh) 2009-05-13
CN101430761B CN101430761B (zh) 2012-10-10

Family

ID=40624894

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2008101741087A Expired - Fee Related CN101430761B (zh) 2007-11-09 2008-11-07 表格数据提取装置和方法

Country Status (3)

Country Link
US (1) US8418050B2 (zh)
JP (1) JP4998220B2 (zh)
CN (1) CN101430761B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102375978A (zh) * 2010-08-17 2012-03-14 富士通株式会社 处理图像的方法和设备
CN104346616A (zh) * 2013-08-09 2015-02-11 北大方正集团有限公司 字符识别装置和字符识别方法
CN108710602A (zh) * 2018-05-15 2018-10-26 深圳市继尧信息技术有限公司 成绩数据的处理方法、装置、计算机设备及存储介质
CN112347831A (zh) * 2019-08-09 2021-02-09 株式会社日立制作所 信息处理装置以及表识别方法

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5428967B2 (ja) * 2010-03-15 2014-02-26 富士ゼロックス株式会社 文書処理システム及び文書処理プログラム
US8977971B2 (en) * 2010-12-24 2015-03-10 General Electric Company Metadata generation systems and methods
JP6222541B2 (ja) * 2013-03-05 2017-11-01 富士ゼロックス株式会社 画像処理装置及びプログラム
JP6194781B2 (ja) * 2013-12-11 2017-09-13 富士ゼロックス株式会社 画像処理装置及びプログラム
JP6965657B2 (ja) * 2017-09-22 2021-11-10 カシオ計算機株式会社 帳票管理装置及びプログラム
JP7131488B2 (ja) * 2018-07-20 2022-09-06 株式会社リコー 情報処理装置、情報処理方法及び情報処理プログラム
JP2021043775A (ja) * 2019-09-12 2021-03-18 富士ゼロックス株式会社 情報処理装置及びプログラム

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5434962A (en) * 1990-09-07 1995-07-18 Fuji Xerox Co., Ltd. Method and system for automatically generating logical structures of electronic documents
JP3602596B2 (ja) * 1995-02-22 2004-12-15 株式会社東芝 ドキュメントファイリング装置および方法
DE69638207D1 (de) * 1995-07-31 2010-08-05 Fujitsu Ltd Prozessor und Verarbeitungsverfahren für Dokumente
JPH11328306A (ja) * 1998-03-09 1999-11-30 Ricoh Co Ltd 文書画像の論理要素抽出方法、装置および記録媒体
JP4141556B2 (ja) * 1998-12-18 2008-08-27 株式会社日立製作所 構造化文書管理方法及びその実施装置並びにその処理プログラムを記録した媒体
JP3851742B2 (ja) 1999-03-31 2006-11-29 株式会社東芝 帳票処理方法及び装置
JP3860389B2 (ja) * 2000-04-21 2006-12-20 日立オムロンターミナルソリューションズ株式会社 帳票イメージ処理装置
JP3886720B2 (ja) * 2000-11-15 2007-02-28 グローリー株式会社 辞書作成装置、辞書作成方法およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体
EP1603072A1 (de) * 2004-06-02 2005-12-07 CCS Content Conversion Specialists GmbH Verfahren und Einrichtung zur Strukturanalyse eines Dokuments
JP2006004005A (ja) * 2004-06-15 2006-01-05 Fuji Xerox Co Ltd 文書処理装置、文書処理方法及びプログラム
US7725814B2 (en) * 2005-08-04 2010-05-25 Microsoft Corporation Form merging
US7840891B1 (en) * 2006-10-25 2010-11-23 Intuit Inc. Method and system for content extraction from forms
CN101276412A (zh) * 2007-03-30 2008-10-01 夏普株式会社 信息处理装置、信息处理系统和信息处理方法
US8260049B2 (en) * 2007-09-28 2012-09-04 Abbyy Software Ltd. Model-based method of document logical structure recognition in OCR systems
US8411956B2 (en) * 2008-09-29 2013-04-02 Microsoft Corporation Associating optical character recognition text data with source images

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102375978A (zh) * 2010-08-17 2012-03-14 富士通株式会社 处理图像的方法和设备
CN104346616A (zh) * 2013-08-09 2015-02-11 北大方正集团有限公司 字符识别装置和字符识别方法
CN104346616B (zh) * 2013-08-09 2017-12-12 北大方正集团有限公司 字符识别装置和字符识别方法
CN108710602A (zh) * 2018-05-15 2018-10-26 深圳市继尧信息技术有限公司 成绩数据的处理方法、装置、计算机设备及存储介质
CN112347831A (zh) * 2019-08-09 2021-02-09 株式会社日立制作所 信息处理装置以及表识别方法

Also Published As

Publication number Publication date
JP2009122723A (ja) 2009-06-04
CN101430761B (zh) 2012-10-10
US8418050B2 (en) 2013-04-09
JP4998220B2 (ja) 2012-08-15
US20090125797A1 (en) 2009-05-14

Similar Documents

Publication Publication Date Title
CN101430761B (zh) 表格数据提取装置和方法
Preece Organizations and technical change: Strategy, objectives and involvement
CN100458773C (zh) 信息处理装置和信息处理方法
Bastem et al. Development of historic building information modelling: A systematic literature review
CN101187942A (zh) 检索系统和显示该系统中的检索结果的方法
JP2857968B2 (ja) 組織図作成装置及び方法
CN102262616A (zh) 表单处理系统、ocr装置、表单制作装置
Desrosiers et al. Design of balanced MBA student teams
Nowosad et al. Pattern-based identification and mapping of landscape types using multi-thematic data
KR20100110205A (ko) 온라인 매거진 서비스 시스템 그리고 이를 이용한 전자문서 발행 및 배포 방법
JP6523979B2 (ja) ドキュメント管理装置、ドキュメント管理方法及びプログラム
CN112396092B (zh) 一种众包开发者推荐方法和装置
KR101030250B1 (ko) 데이터 처리방법 및 데이터 처리 프로그램
JP2005234790A (ja) 手書き帳票処理システム、手書き帳票処理方法
CN1399220A (zh) 使用答案表的数据采集系统和方法
JP4501459B2 (ja) クロス表作成のためのプログラム及び方法及び装置
JP7312646B2 (ja) 情報処理装置、文書識別方法、及び情報処理システム
JP2007328532A (ja) 事業評価装置、事業評価方法、事業評価プログラム
CN101939744A (zh) 在知识产权数据库中生成报告的系统和方法
JP2011043930A (ja) 帳票処理システム、帳票処理サーバ装置、帳票処理装置、帳票処理方法、およびプログラム
Whitaker Sarsen Stones in Wessex
JP4213558B2 (ja) 文書レイアウト解析プログラム、文書レイアウト解析プログラムを記憶したコンピュータ読み取り可能な記憶媒体、文書レイアウト解析方法および文書レイアウト解析装置
JP3421630B2 (ja) 手書き文字管理装置、手書き文字管理方法、手書き文字照会システムおよび手書き文字照会方法
CN113515570B (zh) 一种分布式数据库数据复制方法及装置
Whitaker Sarsen Stones in Wessex Project: Data Transcription Strategy, Methodology and Protocols.

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20121010

Termination date: 20181107

CF01 Termination of patent right due to non-payment of annual fee