CN102194123B - 表格模板定义方法和装置 - Google Patents

表格模板定义方法和装置 Download PDF

Info

Publication number
CN102194123B
CN102194123B CN201010121993.XA CN201010121993A CN102194123B CN 102194123 B CN102194123 B CN 102194123B CN 201010121993 A CN201010121993 A CN 201010121993A CN 102194123 B CN102194123 B CN 102194123B
Authority
CN
China
Prior art keywords
cell
attribute
group
predetermined flag
lattice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201010121993.XA
Other languages
English (en)
Other versions
CN102194123A (zh
Inventor
蒋焰
张睿
山合敏文
大黑庆久
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to CN201010121993.XA priority Critical patent/CN102194123B/zh
Priority to US13/037,901 priority patent/US8693790B2/en
Priority to JP2011052955A priority patent/JP2011192274A/ja
Publication of CN102194123A publication Critical patent/CN102194123A/zh
Application granted granted Critical
Publication of CN102194123B publication Critical patent/CN102194123B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/412Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Character Input (AREA)
  • Image Analysis (AREA)
  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)

Abstract

提供了定义表格模板的方法和装置。该方法包括:分析表格的图像以从该表格的图像中提取单元格;对所提取的单元格进行分组;一组一组地定义单元格的属性,其中,如果定义了一组中的第一单元格的属性,则该组中的其它单元格将自动地复制该单元格的属性。另外,还提出了利用预定标志定义表格模板的方法,包括:分析该表格的图像以从该表格的图像中提取单元格;识别出所提取的单元格中的预定标志;以及以与所识别出的预定标志相关联的单元格的预定属性来定义从中识别出了该预定标志的所提取的单元格。利用本发明的按照分组和/或基于预定标志来定义表格模板的方法和装置,可以显著降低用户的工作量。

Description

表格模板定义方法和装置
技术领域
本发明一般地涉及表格识别,更具体地涉及表格模板定义。
背景技术
表格识别在利用表格收集和分析信息的领域中具有很多应用。借用表格识别,可以数字化、存储和发送表格上的手写体或印刷体的数据。例如,表格识别的一个应用的例子是银行,银行中要处理的用户表格很多,但是表格类型并不多,即有大量同类型的表格,如汇款表格,取款表格等等。这时,只要识别了表格模板,就可以告知应用程序到何处找到有意义的内容,如找到金额,或者用户的姓名,卡号等等。因此,表格模板的定义是表格识别的第一步。
表格模板告知表格处理应用在哪里提取有意义的数据,以及如何提取有意义的数据,文本在某单元格中的布局,如何选择适当的OCR引擎等。
表格模板定义(Form Template Definition,FTD)主要在于确定单元格的属性,单元格的属性包括,但不限于:单元格中内容的语言的类型,如中文、日文等;可填写的是字符还是单个阿拉伯数字;版面性质,如一行还是多行,一个字符串还是一个数字;形成单元格的线条是实线还是虚线,是四周型即矩形形状的,还是U型的;内容是否语言混排,如中文简体和繁体混排,中文和日文混排,字符和数字混排等等。
在美国专利5317646中,提出了一种表格识别系统,其中涉及辅助操作员创建电子模板的方法。操作员以定点设备(pointing device)选择在所显示位图的封闭式边界或半封闭式边界的区域内的单个点,由此利用操作员所选择的单个点,将自动确定表示该封闭式边界或半封闭式边界的坐标。不过,在该专利文档中,仅仅讨论了表格的单元格位置的确定,而未涉及单元格的属性;此外,在确定表格位置过程中需要操作员手动提供一个点。
现有的确定单元格的属性的操作一般是由操作员手动地对所有单元格逐个定义各个单元格的属性,因此工作量很大而且具有大量重复的定义操作,容易令人厌烦。
发明内容
针对现有技术的上述问题,本发明希望提供一种能够降低人们处理表格的工作量的表格模板定义方法和装置。
根据本发明的一个方面,提供了一种定义表格的表格模板的方法,包括:分析表格的图像以从该表格的图像中提取单元格;对所提取的单元格进行分组;一组一组地定义单元格的属性,其中,如果定义了一组中的第一单元格的属性,则该组中的其它单元格将自动地复制该单元格的属性。
根据本发明的另一方面,提供了一种定义表格的表格模板的方法,包括:分析该表格的图像以从该表格的图像中自动提取单元格;识别出所提取的单元格中的预定标志,并以与所识别出的预定标志相关联的单元格的预定属性来定义从中识别出了该预定标志的所提取的单元格。
根据本发明的再一方面,提供了一种定义表格的表格模板的方法,包括:获得表格的第一表格图像;以预定标志来标记该表格中的待定义属性的单元格,其中预定标志与单元格的预定属性相关联;获得针对标记后的表格的第二表格图像;分析该第一表格图像以从该第一表格图像中自动提取单元格;求得第二表格图像与第一表格图像之间的差别图像,然后基于该差别图像来识别单元格中的预定标志,并以与所识别出的预定标志相关联的单元格的预定属性来定义从中识别出该预定标志的所提取的单元格。
根据本发明的另一方面,提供了一种定义表格的表格模板的装置,包括:单元格提取单元,用于分析表格的图像以从该表格的图像中提取单元格;单元格分组单元,用于对所提取的单元格进行分组;以及单元格属性定义单元,用于一组一组地定义单元格的属性,其中,如果定义了一组中的第一单元格的属性,则该组中的其它单元格将自动地复制该单元格的属性。
根据本发明的另一方面,提供了一种定义表格的表格模板的装置,包括:单元格提取单元,用于分析该表格的图像以从该表格的图像中提取单元格;预定标志识别单元,用于识别出所提取的单元格中的预定标志;以及单元格属性定义单元,用于以与所识别出的预定标志相关联的单元格的预定属性来定义从中识别出了该预定标志的所提取的单元格。
根据本发明的另一方面,提供了一种定义表格的表格模板的装置,包括:第一表格图像获得单元,用于获得表格的第一表格图像;预定标志标记单元,用于以预定标志来标记该表格中的待定义属性的单元格,其中预定标志与单元格的预定属性相关联;第二表格图像获得单元,用于获得针对标记后的表格的第二表格图像;单元格提取单元,用于分析该第一表格图像以从该第一表格图像中自动提取单元格;预定标志识别单元,用于求得第二表格图像与第一表格图像之间的差别图像,然后基于该差别图像来识别单元格中的预定标志;以及单元格属性定义单元,用于以与所识别出的预定标志相关联的单元格的预定属性来定义从中识别出该预定标志的所提取的单元格。
利用本发明的上述方法和装置,通过以单元格的组为单位了设置单元格的属性,使得仅需对一组单元格中的一个单元格来设置属性,从而大大降低了表格模板定义的工作量。
利用本发明的上述方法和装置,通过对表格中单元格设置预定标志,而来把与该预定标志相关联的单元格属性自动赋予给单元格,显著降低了表格模板定义的工作量。
附图说明
通过结合附图对本发明各个实施例的详细描述,本领域的技术人员可以更好地理解本发明的上述和其它方面、特点和优点,其中在所有附图中使用相同或相似的附图标记来表示相同或者相似的部件,在附图中:
图1示出根据本发明一个实施例的表格模板定义装置的功能性配置框图;
图2示出根据本发明另一实施例的表格模板定义装置的功能性配置框图;
图3示出根据本发明另一实施例的表格模板定义装置的功能性配置框图;
图4示出根据本发明另一实施例的表格模板定义装置的功能性配置框图;
图5示出一个典型表格的图像的例子;
图6示出了图5中表格的所有单元格;
图7示出了根据本发明一个实施例的自动表格单元格提取的一种示例性方法;
图8示出了如何从水平和垂直线条构建单元格的示例性方法;
图9示出了根据本发明一个实施例的计算水平线条和垂直线条之间距离的示意图;
图10示出了根据本发明一个实施例的判断水平线条和垂直线条之间交叉类型的示意性方法;
图11示出了根据本发明一个实施例的由水平线条和垂直线条生成的九种交叉类型;
图12示出了根据本发明一个实施例如何把上述九种交叉类型分解成四种单元格拐角;
图13(a)和(b)示出了根据本发明一个实施例的验证表格正当性的规则示例;
图14示出了根据本发明一个实施例的在图7的后处理步骤704中应处理的重叠单元格的示意图;
图15示出了根据本发明一个实施例的在图7的后处理步骤704中处理重叠单元格的算法的示意图;
图16示出了根据本发明一个实施例的对图5的表格图像进行自动单元格提取得到的结果;
图17示出了根据本发明一个实施例的判断表格相似性的流程图;
图18示出了根据本发明一个实施例的水平相邻或垂直相邻的两个单元格的例子;
图19示出了根据本发明一个实施例的利用图17所示的方法对一个表格中单元格归类的结果示例;
图20示出了根据本发明一个实施例的图17的步骤1704中的基于图像比较来判断两个单元格是否相似的示例性算法;
图21示出了根据本发明一个实施例的利用图17的步骤1704确定的相似单元格的示例;
图22示出了根据图17的步骤1705确定的相似单元格的示例;
图23示出了标记有预定标志的基准表格图像的示例;
图24示出了对所有待定义属性的单元格标以预定标志的情况的示例;
图25示出了根据本发明一个实施例的定义表格模板的方法的流程图;
图26示出了根据本发明一个实施例的定义表格模板的方法的流程图;
图27示出了根据本发明一个实施例的定义表格模板的方法的流程图;以及
图28示出了可用于实现本发明的示例性计算机系统的配置图。
具体实施方式
下面将结合附图详细描述本发明的具体实施例。如果考虑到对某些相关现有技术的详细描述可能会混淆本发明的要点,则不会在这里提供其详细描述。
在介绍本发明之前,为便于理解本发明,首先介绍一下本发明的基本思想:本发明基于以下三个方面:(1)可以自动提取常规表格单元格,而无需人员介入;(2)在许多表格中,存在具有相同属性设置的大量单元格;(3)在表格模板定义中,对许多单元格,经常应用一些固定的属性设置,如只能输入阿拉伯数字的。针对以上三个方面,我们可以分别采取如下对应措施:(1)大多数单元格是以直线条为边界的,因此我们可以通过扫描图像,获得所有的水平和垂直线条,通过分析这些线条的交叉关系,我们可以自动提取单元格,以及获得单元格的位置;(2)我们可以考虑单元格的高度、宽度、内容、邻居等来对单元格进行分组,在进行表格模板定义时,用户仅需对一组中的一个单元格进行定义,而该组中的其它单元格将自动复制即自动具有该单元格的属性;(3)对于一些固定的属性设置,我们可以用预定标志来进行标记,例如用字符“N”来表示只能在单元格中输入数字,用户例如可以在纸介质的表格上画上该预定标志,由此,在表格被成像后通过识别这些预定标志,可以根据预定标志来对单元格的属性进行快速设置。
参考图1,图1示出了根据本发明一个实施例的表格模板定义装置100的结构配置框图。
如图1所示,表格模板定义装置100可以包括:单元格提取单元101,用于分析表格的图像以从该表格的图像中提取单元格;单元格分组单元102,用于对所提取的单元格进行分组;单元格属性定义单元103,用于一组一组地定义单元格的属性,其中,如果定义了一组中的第一单元格的属性,则该组中的其它单元格将自动地复制该单元格的属性。。
需要说明的是,这里作为处理对象的表格既可以是未经填写的初始空白表格,也可以填写后的表格。关于表格的单元格,如本领域公知的,是构成表格的最小单位,通常是矩形的格子,当然并不局限于此,上部开口的U型格子也可以构成单元格,不过为了说明方便,下面的说明中以矩形单元格为例来进行描述。
关于表格的图像,可以是通过扫描仪、照相机或者其它数字成像设备得到的图像。
在构成表格的单元格中,通常并非所有单元格中内容都是待处理的,而可能仅仅一些单元格是关注对象。例如,在图5所示的示例表格中,单元格501、502、504都是单元格,但是单元格501通常并不是感兴趣的对象,而可能只有那些空白的单元格502和504才是待处理的对象,即才是银行人员真正感兴趣而要提取的对象。根据应用领域或者处理动机的不同,所感兴趣的单元格也将随之不同,并且有可能所有的单元格都是要进行属性定义的单元格。
图6以加粗框的形式示出了图5所示表格的所有单元格。
关于图1所示的单元格提取单元101的单元格操作,既可以是手动进行的,例如由人工来指定每个单元格的位置,也可以是由信息处理设备为计算机自动进行的。存在很多现有自动提取表格的方法,例如,Li Xingyuan,WenGao,David Doermann and Weon-Geun Oh:A Robust Method for UnknownForms Analysis.Proc.of 5th International Conference on Document Analysis andRecognition,1999;Luiz Antonio Pereira Neves and Jacques Facon:Methodologyof Automatic Extraction of Table-Form Cells.Proc.of 13th Brazilian Symposiumon Computer Graphics and Image Processing,2000;Hiroshi Shinjo,EiichiHadano,Katsumi Marukawa,Yoshihiro Shima and Hiroshi Sako:A RecursiveAnalysis for Form Cell Recognition.Proc.of 6th International Conference onDocument Analysis and Recognition,2001;Takashi Hirano,Yasuhiro Okada andFumio Yoda:Field Extraction Method from Existing  Forms Transmitted byFacsimile.Proc.of 6th International Conference on Document Analysis andRecognition,2001。下面将参照图7对自动提取单元格的示例性处理流程进行简要说明。
此外,图1所示的单元格分组单元102的单元格分组操作,可以完全自动地即无人工干预地进行,也可以基于人工干预来进行。人工干预的例子是例如由操作员通过对单元格进行点击和选择来进行分组。关于对单元格进行自动分组可以是根据单元格之间的相似度计算而自动进行的,以把相似的单元格分到同一组中。例如,可以利用聚类算法对作为聚类对象的各个单元格进行聚类来进行。聚类算法例如,但并不局限于,k均值聚类,层次聚类等。在计算单元格之间的相似度时,可以考虑单元格的各个方面,例如高度、宽度、单元格中的内容、单元格的邻居即邻近单元格等等。图17给出了判断单元格之间是否相似的一个例子。后面将参考图17进行详细说明。
参考图7,示出了根据本发明一个实施例的自动表格单元格提取的一种示例性方法。
在步骤701,对诸如图5所示的表格进行预处理。预处理可以包括图像二值化、图像歪斜校正(deskew)、线条增强处理等操作。
在步骤702,提取水平和垂直线条。图8示出了根据本发明一个实施例的提取水平线条的示例性方法。
下面给出提取水平线条的一个示例性算法:
输入:二值表格图像(假定背景颜色是白色,而前景颜色是黑色)和三个给定阈值T1、T2、T3
步骤1:检测所有水平游程(run-length),这可以通过从上至下逐行扫描表格图像来进行。如果可以找到一水平连续黑色像素的线条,则将其称为水平黑色游程。具体地,如果游程长度大于第一阈值T1,则将其作为水平游程i,记载为(xsi,xei,y),其中,xsi是水平起始位置,xei是水平终止位置,y是垂直位置;
步骤2:水平游程合并,对于任意两个水平游程(xs1,xe1,y1)和(xs2,xe2,y2),如果min(xe1,xe2)-max(xs1,xs2)≥T2并且|y1-y2|≤T3,则判断该两条水平游程属于同一水平线段。将属于同一水平线段的游程合并成一个水平线段,以(xs,xe,y)表示,其中,xs是被合并的全部水平游程中的最左的坐标,xe是被合并的全部水平游程中的最右的坐标,y是被合并的全部游程中最长游程的垂直坐标。
上面给出了水平线条的提取算法的例子,可以类似地提取垂直线条。
接下来,在步骤703,根据线条的交叉关系来构建单元格。图8示例性地图示了根据本发明一个实施例的单元格的构建方法。在步骤801,获得每一对水平线条和垂直线条之间的交叉关系;在步骤802,把所有获得的交叉分解为各种拐角;在步骤803,通过各个拐角来构建单元格。具体地,一个单元格可以视为由四个拐角即左上拐角、左下拐角、右上拐角、右下拐角组合而成。因此构建单元格可能需要首先要分析得出各种拐角。而要分析各种拐角,首先要分析水平线条和垂直线条的交叉关系即是否相交。为此,需要先判定两个线条是否相交。作为例子而非限制,判断一个水平线条和一个垂直线条是否相交可以如下进行:计算出水平线条和垂直线条之间的距离,并将此距离和预定阈值相比较,如果距离小于预定阈值,则确定该两个线条之间相交,否则确定该两个线条不相交。图9示出了一种计算水平线条和垂直线条之间的距离的方法,如图所示,水平线条901和垂直线条902之间的距离计算为l1+l2
图10示出了根据本发明一个实施例判断一对水平线条和垂直线条之间是否相交以及为何种交叉关系的示例性方法。图11以2行2列的表格(4个单元格)示出了水平线条和垂直线条之间可能的九种交叉类型,为了便于理解,在各个交叉类型之间示出了空白间隔,而在实际的表格中一般并不存在这样的空白间隔。
图12示出了水平线条和垂直线条之间的各种交叉如何被分解为四种拐角。例如,其中十字型交叉可以被分解出全部的四种拐角,而型交叉仅能被分解为左下拐角,上型交叉可以被分解为右下拐角和左下拐角。
具体地,关于图8所示步骤803中由各个拐角来构建单元格可以例如如下进行:选择左上拐角、右上拐角、左下拐角、右下拐角各一个,检查该四个拐角是否可以构成一个单元格,可以通过判断该四个拐角是否满足如下规则来进行该检查操作:
(1)规则1:该四个拐角可以同时被放置在一个外围矩形之内和一个内部矩形之外。图13(a)示意性地图示了该规则。如图13(a)所示,内部矩形以标记1307指示,外围矩形以标记1308指示,其中内部矩形1307和外围矩形1308之间水平间隔为Hc,垂直间隔为Vc。该四个拐角,即左上拐角1301、右上拐角1302、左下拐角1303、右下拐角1304位于内部矩形1307和外围矩形1308之间。也就是说,仅允许水平Hc的偏离,垂直Vc的偏离。
(2)规则2:左上拐角1301、右上拐角1302、左下拐角1303、右下拐角1304的位置分别以拐角点的坐标(x1,y1),(x2,y2),(x3,y3)和(x4,y4)表示,我们估计单元格的位置为((x1+x3)/2,(y1+y2)/2,(x2+x4)/2,(y3+y4)/2)。然后,沿着单元格的边框行进并检查间隙长度。图13(b)示意性地图示了间隙长度的计算,其中间隙1305的长度是l1,而间隙1306的长度是l2+l3。如果间隙长度的最大值小于预定阈值,则我们说规则2得到了满足。
当然,规则的具体细节可以进行修改,或者添加新的规则以验证四个拐角是否形成了一个单元格。
接下来,返回图7,在步骤703构建单元格之后,在步骤704,进行一些后处理操作,如重叠单元格的处理等。在某些情况下,由于线条的宽度、虚实等,可能会构建出重叠的单元格来,而实际上,它们应该对应于一个单元格。图14示意性地图示了两个彼此重叠的单元格。
图15示出了图7中的后处理步骤704中处理重叠单元格的方法的示例性流程图。
在步骤1501,输入给定两个重叠的单元格CELLA和CELLB,设定阈值T1和T2。这里假设单元格CELLA的位置表示为(xA,1,yA,1,xA,2,yA,2),单元格CELLB的位置表示为(xB,1,yB,1,xB,2,yB,2)。
在步骤1502,对于单元格CELLA,将其区域扩大为(xA,1-T1,yA,1-T2,xA, 2+T1,yA,2+T2),如果单元格CELLB被包含于该扩大后的区域中,则移除单元格CELLA
在步骤1503,对于单元格CELLB,将其区域扩大为(xB,1-T1,yB1-T2,xB, 2+T1,yB2+T2),如果单元格CELLA被包含于该扩大后的区域中,则移除单元格CELLB
在步骤1504中,如果单元格CELLA和单元格CELLB均被移除,则我们添加一个新的单元格((xA,1+xB,1)/2,(yA,1+yB,1)/2,(xA,2+xB,2)/2,(yA,2+yB, 2)/2)。
上面参考图7到15说明了提取单元格的方法,但请注意,该提取单元格的方法仅仅是示例,如前所述,现有技术中存在许多提取单元格的方法,这些方法均可以用于本发明。
图16示出了对图5的表格进行单元格提取后得到的单元格提取结果示意图,其中以加粗的边框示出了各个单元格。
图17示出了在图1所示的单元格分组操作中可能采用的判断单元格相似的方法的示例性流程图。
在步骤1701中,检查是否存在与单元格CELLA和CELLB都相似的单元格CELLC,如果存在,则行进到步骤1707,确定单元格CELLA和CELLB相似。通过该步骤,如果根据先前的相似性判断操作,已经判断出了CELLA和CELLC相似,CELLB和CELLC也相似,则可以直接判断CELLA和CELLB相似。换句话说,如果CELLA和CELLC被分到同一组,CELLB和CELLC也被分到同一组,则可以直接得出CELLA和CELLB在同一组。由此,可以省略接下来的步骤1702到1705中对CELLA和CELLB相似性判断的操作。
如果在步骤1701的检查操作中确定不存在与单元格CELLA和CELLB都相似的单元格,则前进到步骤1702,其中,判断单元格CELLA和CELLB是否具有相似的高度和宽度,如果是,则前进到步骤1703,判断单元格CELLA和CELLB是否水平相邻或者垂直相邻。如果步骤1703的判断结果是肯定的,则前进到步骤1707,即确定单元格CELLA和CELLB相似。
如果步骤1703的判断结果是否定的,则前进到步骤1705,判断单元格CELLA和CELLB的邻居即相邻的单元格是否相似,如果CELLA和CELLB的邻居相似,则前进到步骤1707,即确定单元格CELLA和CELLB相似。如果步骤1705的判断结果是否定的,则前进到步骤1706,即确定单元格CELLA和CELLB不相似。
如果步骤1702的判断结果是否定的,则前进到步骤1704,其中,判断单元格CELLA和CELLB是否具有相似的内部内容,如果是,则前进到步骤1707,即确定即确定单元格CELLA和CELLB相似;否则,前进到步骤1706,,即确定单元格CELLA和CELLB不相似。
图18示出了水平相邻或者垂直相邻的两个单元格的例子,如果在单元格1801和1802之间没有其它单元格,则认为单元格1801和1802相邻,类似地,单元格1803和1804也是相邻的。如果单元格1801和1802的中心之间的垂直方向的差小于预定阈值,则认为单元格1801和1802水平相邻。类似地,单元格1803和1804之间的水平方向的差小于预定阈值,所以认为单元格1803和1804垂直相邻。
图19示出了根据图17所示步骤1701、1702、1703的操作所得到的分组结果,即认为边框加粗的单元格之间是相似的,被分到了一组。
关于图17步骤1704中的判断两个单元格内部的内容是否相似的操作,这里,单元格内部的内容指的是在单元内部的对象。既可以通过字符识别来比较所提取的单元格中的内容,也可以通过图像级别的比较来比较所提取的单元格的内容。借用字符识别的方法例如为利用字符识别来识别所提取的对象,以及对单元格中对象的识别结果进行比较:例如,如果在两个单元格中的相同字符的数目超过了预定阈值或者相同字符占所有字符的比例超过了预定阈值,则可以判断该两个单元格是相似的单元格。关于图像级别的比较,可以通过各个像素值的比较来进行,也可以例如比较由连续像素组成的连通域(如一个字符中的横)。图20示出了一个通过图像级别比较的方式来比较内部内容的示例性方法,其中抽取连通域,对各个连通域进行比较。图21示出了通过判断单元格内部的内容是否相似而识别出的两个相似单元格。如图21所示,虽然单元格2101和2105在大小上并不相似,但是通过基于字符识别的方法或者基于图像级别的比较的方法可以发现单元格内部的内容是相似的,可以发现相似的内容对2102和2106、2103和2107、2104和2108,由此判断单元格2101和2105是相似单元格。
关于步骤1705的根据单元格各自的邻居单元格之间的相似性来判断单元格是否相似的操作,图22示出了根据该步骤的一个示例性例子。在图22中,属于同一组的待定义属性的单元格采用相同的阴影来表示。如图22所示,单元格2201、2202、2203在大小上是相似的,但是它们既不水平相邻也不垂直相邻,而且不存在内部内容。但是,通过图17中的其它步骤,可以确定单元格2201、2202、2203的邻居单元格之间的彼此相似性,例如单元格2201、2202、2203的右侧单元格根据步骤1704的操作可以被确定为是相似的即应归于一组。基于这种单元格的邻居单元格之间的相似性,可以确定单元格2201、2202、2203之间是相似的。
通过上述根据本发明实施例的基于分组来定义各组单元格属性的方法,可以通过仅对一组中的一个单元格进行属性定义而自动实现对该组所有单元格的属性定义,由此大大降低了用户的工作量。
此外,在定义了表格模板之后或者过程中,对于单元格分组是否正确,可以由用户进行确认,而且如果用户发现有错误之处,用户可以进行修正。
而且,在上述表格模板定义之后获得过程中,如果发现一组单元格的属性定义需要改变或者改正,则用户可以以组为单位来改变单元格的属性,即修改一组中任一单元格的属性,则该组中其它单元格的属性也自动地进行相应改变。显然,这也大大降低了后续表格模板维护的工作量。当然,用户可以选择不以组为单位而是以单元格为单位来修正单元格的属性,即对一个单元格的属性的修改不会影响到与之同组的其它单元格的属性。或者,用户可以选择对某些单元格以组为单位来修正单元格的属性,而对于其它单元格以单元格为单位来修改单元格的属性。这些都是可以根据用户的选择而进行相应改变的。
下面,参考图2来描述根据本发明另一实施例的表格模板定义装置。该表格模板定义装置中利用了表格中的预定标志,这是基于有大量的单元格具有固定的经常重复的属性,例如,对于制造代码,是一串数字,则我们可以比如用预定标志“N”来表示单元格中只能填写数值的这一单元格属性。由此,在进行单元格定义时,只要识别出单元格中有预定标志“N”,则该单元格即自动被赋予以只能填写数值的这一单元格属性,而无需用户再行手动设置。图23中给出了一些标志的示例,除了标志“N”之外,标志”JT”表示单元格中可以填入任何字符串,标志“Δ”表示单元格中仅能填入单个阿拉伯数字。
如图2所示,表格模板定义装置200包括:单元格提取单元201,分析该表格的图像以从该表格的图像中提取单元格;预定标志识别单元202,识别出所提取的单元格中的预定标志;单元格属性定义单元203,以与所识别出的预定标志相关联的单元格的预定属性来定义从中识别出了该预定标志的所提取的单元格。需要注意的是,这里的表达“所提取的单元格中的预定标志”或“从中识别出了该预定标志的所提取的单元格”并不表示该预定标志必然与该所提取的单元格位于同一图像上,而是可以位于另一图像上。比如:对于一个初始表格,可以扫描得到一初始图像A;然后对该初始表格由用户手写上预定标志后,扫描得到一基准图像B;由此,为处理简单,可以从初始图像A提取单元格,而从基准图像B中识别预定标志,然后取得预定标志和所提取单元格之间的位置对应关系,从而把与该预定标志相关联的属性赋予给对应位置处的单元格,这种情况下,虽然单元格是从初始图像A提取的,预定标志是从基准图像识别出的,但是我们为方便表述,仍然采用“所提取的单元格中预定标志”或“从中识别出了该预定标志的所提取的单元格”的说法。当然,可以是直接对一个表格图像如参考图像B进行包括单元格提取和预定标志识别的所有处理。另外,预定标志可以是由用户手工画在纸质表格上的,也可以是由用户利用计算机在得到的数字图像上加上预定标志。
图3示出了根据本发明另一实施例的一种利用预定标志来定义表格模板的装置300。
如图3所示,表格模板定义装置300包括:第一表格图像获得单元301,用于获得表格的第一表格图像;预定标志标记单元302,用于以预定标志来标记该表格中的待定义属性的单元格,其中预定标志与单元格的预定属性相关联;第二表格图像获得单元303,用于获得针对标记后的表格的第二表格图像;单元格提取单元304,用于分析该第一表格图像以从该第一表格图像中自动提取单元格;预定标志识别单元305,用于求得第二表格图像与第一表格图像之间的差别图像,然后基于该差别图像来识别单元格中的预定标志;以及单元格属性定义单元306,用于以与所识别出的预定标志相关联的单元格的预定属性来定义从中识别出的该预定标志相关联的所提取的单元格。
这里,需要说明的是,既可以对全部待定义属性的单元格标以预定标志,也可以只对部分单元格标以预定标志。图24示出了对所有待定义属性的单元格标以预定标志的情况的示例。
可以通过把图1所示的根据分组定义表格模板的装置与图2所示的基于预定标志来定义表格模板的装置相结合来得到一种组合表格模板定义方法。图4示出了根据本发明另一实施例的基于这种结合的表格模板定义装置。图4与图1的不同在于,还包括预定标志识别单元404,用于识别该第一单元格中是否具有预定标志,其中预定标志与单元格的预定属性相关联,如果从该第一单元格中识别出预定标志,则单元格属性定义单元403以与该预定标志相关联的预定属性来定义该第一单元格。即,对于一组单元格,可以在该组单元格中的一个单元格中加以预定标志,然后在进行表格模板定义过程中,如果对于一组单元格,识别出其中一个单元格中具有预定标志,则以与预定标志相关联的预定属性来定义该单元格,并进而自动定义该组中的其它单元格。下面参照图23对这种情况进行说明,在图23中,属于同一组的待定义属性的单元格采用相同的阴影来表示。如图23所示,单元格2301、2304、2307属于一组,其中单元格2303被标以预定标志“JT”,则单元格2301将被自动赋予以输入字符串的属性,进而与单元格2301属于同一组的单元格2304、2307也将自动具有与单元格2301同样的该属性,而无需对此属性再专门针对单元格2304和2307进行定义。类似地,单元格2302、2305、2308属于一组,单元格2303、2306、2309等属于同一组,则被识别出预定标记“N”的单元格2302和被识别出预定标记“Δ”的单元格2303在被赋予相应的预定属性后,与单元格2302属于同一组的单元格2305、2308将自动具有与单元格2302相同的该预定属性,以及与单元格2303属于同一组的单元格2306、2309将自动具有与单元格2303相同的该预定属性。
上述描述中给出了标志的示例“N”、“JT”、“Δ”。当然,标志并不局限于上述示例,例如也可以预定颜色来表示,例如对于同一字符“N”,如果以黑色表示则该字符为普通的文字内容,而如果以红色表示,则可以表示该单元格的属性是其中内容为数值,或者如果单元格的边框是红色的,该单元格具有与红色对应的预定属性,如其中只能填写日文等等;而且,标志还可以是各种符号、形状如五角星、或者表格边框的线型如点划线波浪线等。
利用基于预定标志来定义表格模板属性的方案,可以降低用户的工作量。而把基于预定标志和基于分组来定义表格模板属性的方案,可以结合两者优势而进一步更显著地降低用户的工作量。
图25示出了根据本发明一个实施例的定义表格模板的方法2500的流程图,包括:步骤2501,分析表格的图像以从该表格的图像中提取单元格;步骤2502,对所提取的单元格进行分组;步骤2503,一组一组地定义单元格的属性,其中,如果定义了一组中的第一单元格的属性,则该组中的其它单元格将自动地复制该单元格的属性。优选地,步骤2503中定义第一单元格的属性可以包括识别该第一单元格中是否具有预定标志,其中预定标志与单元格的预定属性相关联,如果从该第一单元格中识别出预定标志,则以与该预定标志相关联的预定属性来定义该第一单元格。进一步优选地,识别该第一单元格中是否具有预定标志可以包括,求得未设置有预定标志的表格的图像与设置有预定标志的表格的图像之间的差别图像,以及将该差别图像与预定标志相比较。另外,优选地,在一组的单元格的属性被定义之后,可以修改该组中任一单元格的属性,则该组中其它单元格的属性自动地进行相应改变。而且,优选地,上述步骤2502中对所提取的单元格进行分组可以是根据单元格之间的相似度计算而自动进行的。
图26示出了根据本发明一个实施例的定义表格模板的方法2600的流程图,包括:步骤2601,分析该表格的图像以从该表格的图像中提取单元格;步骤2602,识别出所提取的单元格中的预定标志;以及步骤2603,以与所识别出的预定标志相关联的单元格的预定属性来定义从中识别出了该预定标志的所提取的单元格。
图27示出了根据本发明一个实施例的定义表格模板的方法2700的流程图,包括:步骤2701,获得表格的第一表格图像;步骤2702,以预定标志来标记该表格中的待定义属性的单元格,其中预定标志与单元格的预定属性相关联;步骤2703,获得针对标记后的表格的第二表格图像;步骤2704,分析该第一表格图像以从该第一表格图像中自动提取单元格;步骤2705,求得第二表格图像与第一表格图像之间的差别图像,然后基于该差别图像来识别单元格中的预定标志;以及步骤2706,以与所识别出的预定标志相关联的单元格的预定属性来定义从中识别出该预定标志的所提取的单元格。
需要说明的是,附图中所示的各步骤或者各单元之间的顺序除了它们之间存在必然的相互依赖关系外,并不表示各个步骤或者各个单元必然要按照所示顺序进行或者布置,例如图26所示的单元格提取单元的单元格提取操作2601和预定标志识别操作2602之间的顺序是可以任意设置的。
图28示出了可以应用于实现本发明的示例性计算机系统2800的配置图。计算机系统2800典型地包括图像输入设备2801、用户摄入设备2802、存储器器件2803、处理器2804、输出设备2805、网络接口2806。处理器2804的数目可以是一个或多个。存储器设备2803可以是随机访问存储器(RAM)、处理器中的高速缓冲存储器、所配置的虚拟内存以及其它补充存储器。图像输入设备2801可以包括数码相机、扫描仪或者可以捕捉图像形成信号的任何其它设备。用户输入设备2802可以包括键盘、鼠标、触摸垫和可以接收用户命令的任何其它设备。图28的系统可以包括与一个或多个网络通信的网络接口2806,网络例如可以是:局域网(LAN)、广域网(WAN)、无线网络等等,用于从其它系统接收信息和向其它系统发送信息。可以在网络上传输图像数据、命令和应用,此外还可以把中间和最终结果发送给远程计算机。输出设备2805可以包括显示设备、打印设备、可存储或传达表格定义结果的任何设备等。
另外需要说明的是,本发明的实施例可以通过硬件、软件、固件或它们之间结合的方式来实现,包括可以把本发明实施例体现为计算机介质或计算机程序,其实现方式不对本发明的技术范围构成限制。
上述实施例的处理功能可以由计算机实现。在这样的情况下,提供描述PC(文件管理装置和文件传送组织)的处理过程的程序。通过利用计算机执行程序,可以由计算机实现上述功能。此外,可以将描述处理过程的程序记录在计算机可读记录介质中。计算机可读介质的示例包含磁记录介质,诸如磁带或硬盘、光盘、磁光记录介质和半导体存储器。
为了分布程序,例如,可以利用从市场上可得到诸如光盘之类的存储程序的可移动记录介质。此外,可以将程序存储在服务器计算机的存储单元并可以从服务器计算机经由网络传送到其它计算机。
用于执行程序的计算机将例如记录在可移动介质中、或从服务器计算机传送的程序存储在连接到其上的存储单元中。顺序地,计算机从存储单元读出程序并根据程序执行处理。
本发明实施例中的各个元件(单元)相互之间的连接关系不对本发明的技术范围构成限制,其中的一个或多个元件可以包括或连接于其它任意的元件。
虽然上面已经结合附图示出并描述了本发明的一些实施例,但是本领域的技术人员应当理解,在不偏离本发明的原则和精神的情况下,可以对这些实施例做出变化和改变,所做的变化和改变仍然落在本发明及其等价物的保护范围之内。

Claims (5)

1.一种定义表格的表格模板的方法,包括:
分析表格的图像以从该表格的图像中提取单元格;
对所提取的单元格进行分组;以及
一组一组地定义单元格的属性,其中,如果定义了一组中的第一单元格的属性,则该组中的其它单元格将自动地复制该单元格的属性,
其中定义第一单元格的属性包括,识别该第一单元格中是否具有预定标志,其中预定标志与单元格的预定属性相关联,如果从该第一单元格中识别出预定标志,则以与该预定标志相关联的预定属性来定义该第一单元格。
2.根据权利要求1的方法,其中识别该第一单元格中是否具有预定标志包括,求得未设置有预定标志的表格的图像与设置有预定标志的表格的图像之间的差别图像,以及将该差别图像与预定标志相比较。
3.根据权利要求1的方法,其中,在一组的单元格的属性被定义之后,修改该组中任一单元格的属性,则该组中其它单元格的属性自动地进行相应改变。
4.根据权利要求1的方法,其中对所提取的单元格进行分组是根据单元格之间的相似度计算而自动进行的。
5.一种定义表格的表格模板的装置,包括:
单元格提取单元,用于分析表格的图像以从该表格的图像中提取单元格;
单元格分组单元,用于对所提取的单元格进行分组;以及
单元格属性定义单元,用于一组一组地定义单元格的属性,其中,如果定义了一组中的第一单元格的属性,则该组中的其它单元格将自动地复制该单元格的属性。
CN201010121993.XA 2010-03-11 2010-03-11 表格模板定义方法和装置 Expired - Fee Related CN102194123B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201010121993.XA CN102194123B (zh) 2010-03-11 2010-03-11 表格模板定义方法和装置
US13/037,901 US8693790B2 (en) 2010-03-11 2011-03-01 Form template definition method and form template definition apparatus
JP2011052955A JP2011192274A (ja) 2010-03-11 2011-03-10 フォームテンプレートを定義する方法及び装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201010121993.XA CN102194123B (zh) 2010-03-11 2010-03-11 表格模板定义方法和装置

Publications (2)

Publication Number Publication Date
CN102194123A CN102194123A (zh) 2011-09-21
CN102194123B true CN102194123B (zh) 2015-06-03

Family

ID=44560023

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201010121993.XA Expired - Fee Related CN102194123B (zh) 2010-03-11 2010-03-11 表格模板定义方法和装置

Country Status (3)

Country Link
US (1) US8693790B2 (zh)
JP (1) JP2011192274A (zh)
CN (1) CN102194123B (zh)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130294694A1 (en) * 2012-05-01 2013-11-07 Toshiba Tec Kabushiki Kaisha Zone Based Scanning and Optical Character Recognition for Metadata Acquisition
US9075847B2 (en) * 2012-11-28 2015-07-07 Sap Se Methods, apparatus and system for identifying a document
US11120512B1 (en) 2015-01-06 2021-09-14 Intuit Inc. System and method for detecting and mapping data fields for forms in a financial management system
US9934213B1 (en) 2015-04-28 2018-04-03 Intuit Inc. System and method for detecting and mapping data fields for forms in a financial management system
US9501696B1 (en) 2016-02-09 2016-11-22 William Cabán System and method for metadata extraction, mapping and execution
CN107679024B (zh) * 2017-09-11 2023-04-18 畅捷通信息技术股份有限公司 识别表格的方法、系统、计算机设备、可读存储介质
US10853567B2 (en) 2017-10-28 2020-12-01 Intuit Inc. System and method for reliable extraction and mapping of data to and from customer forms
US10762581B1 (en) 2018-04-24 2020-09-01 Intuit Inc. System and method for conversational report customization
US11113559B2 (en) 2018-07-20 2021-09-07 Ricoh Company, Ltd. Information processing apparatus for improving text data recognition, information processing method, and non-transitory recording medium
US11151373B2 (en) 2018-07-20 2021-10-19 Ricoh Company, Ltd. Information processing apparatus and information processing method
US11416674B2 (en) 2018-07-20 2022-08-16 Ricoh Company, Ltd. Information processing apparatus, method of processing information and storage medium
US11763321B2 (en) 2018-09-07 2023-09-19 Moore And Gasperecz Global, Inc. Systems and methods for extracting requirements from regulatory content
CN110502985B (zh) * 2019-07-11 2022-06-07 新华三大数据技术有限公司 表格识别方法、装置及表格识别设备
CN112733518A (zh) * 2021-01-14 2021-04-30 卫宁健康科技集团股份有限公司 表格模板生成方法、装置、设备及存储介质
CN113191131A (zh) * 2021-05-10 2021-07-30 重庆中科云从科技有限公司 用于文本识别的表格模板建立方法、文本识别方法、系统
US11823477B1 (en) * 2022-08-30 2023-11-21 Moore And Gasperecz Global, Inc. Method and system for extracting data from tables within regulatory content

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0520494A (ja) * 1991-07-11 1993-01-29 Hitachi Ltd 帳票属性認識・表示方法
US5317646A (en) * 1992-03-24 1994-05-31 Xerox Corporation Automated method for creating templates in a forms recognition and processing system
JPH06124296A (ja) * 1992-10-12 1994-05-06 Hitachi Ltd 帳票作成方法
TW421750B (en) * 1997-03-14 2001-02-11 Omron Tateisi Electronics Co Language identification device, language identification method and storage media recorded with program of language identification
JPH1166232A (ja) * 1997-08-26 1999-03-09 Ricoh Co Ltd 帳票定義方法
JP3258287B2 (ja) * 1999-01-06 2002-02-18 インターナショナル・ビジネス・マシーンズ・コーポレーション 画像データの解析方法及び解析装置、及び画像データの解析を行うためのプログラム・プロダクトを格納した記録媒体
JP4078009B2 (ja) * 2000-02-28 2008-04-23 東芝ソリューション株式会社 帳票における文字記録領域の検出装置、帳票における文字記録領域の検出方法、記憶媒体及び帳票フォーマット作成装置
JP3425408B2 (ja) * 2000-05-31 2003-07-14 株式会社東芝 文書読取装置
JP3898645B2 (ja) * 2003-01-15 2007-03-28 富士通株式会社 帳票書式編集装置および帳票書式編集プログラム
US7508984B2 (en) * 2003-07-31 2009-03-24 Ricoh Company, Ltd. Language recognition method, system and software
JP2006178802A (ja) * 2004-12-24 2006-07-06 Hitachi Ltd 帳票定義自動作成方法
WO2006136958A2 (en) * 2005-01-25 2006-12-28 Dspv, Ltd. System and method of improving the legibility and applicability of document pictures using form based image enhancement
US8295590B2 (en) * 2007-09-14 2012-10-23 Abbyy Software Ltd. Method and system for creating a form template for a form
JP5089524B2 (ja) * 2008-08-05 2012-12-05 株式会社リコー 文書処理装置、文書処理システム、文書処理方法、及び、文書処理プログラム

Also Published As

Publication number Publication date
US8693790B2 (en) 2014-04-08
US20110222776A1 (en) 2011-09-15
CN102194123A (zh) 2011-09-21
JP2011192274A (ja) 2011-09-29

Similar Documents

Publication Publication Date Title
CN102194123B (zh) 表格模板定义方法和装置
US10853565B2 (en) Method and device for positioning table in PDF document
Yanikoglu et al. Pink Panther: a complete environment for ground-truthing and benchmarking document page segmentation
US8693779B1 (en) Segmenting printed media pages into articles
US20150046784A1 (en) Extraction device for composite graph in fixed layout document and extraction method thereof
JPH0668301A (ja) 文字認識方法及び装置
JP2004139484A (ja) 帳票処理装置、該装置実行のためのプログラム、及び、帳票書式作成プログラム
Prusty et al. Indiscapes: Instance segmentation networks for layout parsing of historical indic manuscripts
CN105719243A (zh) 图像处理装置和方法
US20220415008A1 (en) Image box filtering for optical character recognition
WO2019041442A1 (zh) 图表数据结构化提取方法、系统、电子设备及计算机可读存储介质
US9189459B2 (en) Document image layout apparatus
Mehri et al. Learning texture features for enhancement and segmentation of historical document images
CN112241730A (zh) 一种基于机器学习的表格提取方法和系统
CN109726369A (zh) 一种基于标准文献的智能模板化题录技术实现方法
US9049400B2 (en) Image processing apparatus, and image processing method and program
US9798711B2 (en) Method and system for generating a graphical organization of a page
Yang et al. Automatic single page-based algorithms for medieval manuscript analysis
CN112861485A (zh) 核电dcs控制逻辑图纸的处理方法、装置及设备
Ranka et al. Automatic table detection and retention from scanned document images via analysis of structural information
US20110135162A1 (en) Image processing apparatus, image processing method and recording medium
JPH0743718B2 (ja) マルチメディア文書構造化方式
JP5402417B2 (ja) 画像処理装置
Yang et al. A Table Recognition and Extraction Algorithm in Dongba Character Documents Based on Hough Transform
CN117994800A (zh) 文档处理方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20150603

Termination date: 20210311