CN101127081B - 表格数据处理方法和装置 - Google Patents

表格数据处理方法和装置 Download PDF

Info

Publication number
CN101127081B
CN101127081B CN2006101714470A CN200610171447A CN101127081B CN 101127081 B CN101127081 B CN 101127081B CN 2006101714470 A CN2006101714470 A CN 2006101714470A CN 200610171447 A CN200610171447 A CN 200610171447A CN 101127081 B CN101127081 B CN 101127081B
Authority
CN
China
Prior art keywords
candidate
unit lattice
candidate unit
gridblock
lattice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN2006101714470A
Other languages
English (en)
Other versions
CN101127081A (zh
Inventor
田中宏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Publication of CN101127081A publication Critical patent/CN101127081A/zh
Application granted granted Critical
Publication of CN101127081B publication Critical patent/CN101127081B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/412Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Character Input (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了表格数据处理方法和装置。本发明是能够实现对从表单文档图像等中自动提取出来的分格线和单元格进行轻松修正的支持技术。本发明包括:从包括多个单元格的表格的图像中生成多个候选单元格,并且通过提取所述候选单元格的特定组合而输出初始表格;接受来自用户的对包含在所述初始表格中的特定候选单元格的指定,作为对错误单元格的指定;通过从除了所述候选单元格的所述特定组合之外的所述候选单元格中选择能够替换所指定的错误单元格的至少一部分的候选单元格,生成候选组;和向所述用户呈现所述候选组,并且提示所述用户选择所述候选组中包含的所述候选单元格之一。

Description

表格数据处理方法和装置
技术领域
本发明涉及一种从表格的图像中识别出由分格线(ruled line)和单元格(其是由分格线围出的区域)组成的表格的技术,更加具体地讲,涉及一种修正自动识别出的分格线或单元格(cell)的技术。
背景技术
近来,随着商务的计算机化,大量电子文档已经开始得到使用。作为用于使已经使用纸质文档进行了运作的商务计算机化或者用于把用纸件发布的文档转换成电子文档的技术,诸如光学字符读取器或者光学字符识别(OCR)这样的文档图像识别技术的重要性不断提高。尤其是,用于识别包含在诸如表格文档这样的文档中的表格的技术是很重要的。
所使用的表格是由垂直和水平分格线组成的。在识别表格结构的表格识别技术中,已经开发出了识别表格中的分格线以及由这些分格线围绕出的单元格的位置和大小的技术。
分格线提取方法包括例如根据文档图像中的垂直和水平像素游程提取分格线的方法(例如,日本专利申请公告JP-A-H1-217583)。图像输入构件借助扫描仪等获得文档图像。垂直和水平游程提取构件提取黑色像素在垂直方向或水平方向上连续出现预定长度或更长长度的区域作为游程区域。垂直和水平游程合并构件将提取出来的彼此相邻的游程区域合并成一个分格线区域。最后,将所提取的分格线区域存储到分格线数据结构中。
此外,日本专利申请公报JP-A-H7-28939公开了一种即使在输入图像有一些倾斜的情况下也能够正确对表格部分进行向量化的技术。具体来说,在用于对表格图像中的表格部分进行向量化的装置中,配备有投影单元,在该投影单元中,将表格图像当中的线段分类成垂直方向组和水平方向组,仅仅将垂直方向组中的线段投影到水平轴上,并且仅仅将水平方向组中的线段投影到垂直轴上,以获得分格线的投影图像。此外,还配备有遮挡图像产生器和分格线检索单元,遮挡图像产生器用于从垂直方向/水平方向绘制出宽度与存储器中分格线的投影图像相同的直线,以生成遮挡图像,分格线检索单元用于依据遮挡图像检索分格线,以对表格单元进行矢量化。然后,分格线检索单元从遮挡图像中提取出直线的交点,并且根据像素的数量与所提取的交点之间的距离的比率来确定这些交点之间是否存在分格线。
单元格提取方法主要包括提取由分格线围绕的矩形区域的方法,和提取交点(是分格线交叉的点)并且根据这些交点的位置关系提取单元格区域的方法。在例如《A Study on Table Recognition with Complex Structure》(Kojima、Kiyosue、Akiyama,37th second half of the national convention inInformation processing Society of Japan,6W-8,第1660-1161页,1988年10月)(下文中称为非专利文献1)和《Structure Recognition of VariousKinds of Table-Form Documents》(Qin、Watanabe、Sugie,the Transactionsof the Institute of Electronics,Information and Communication Engieers,D-II,第J76-D-II卷,第10期,第2165-2176页,1993年10月)(下文中称为非专利文献2)中公开了提取由分格线围绕的矩形区域的方法。再有,日本专利申请公报JP-A-H9-50527也使用了类似的原理。
非专利文献2的单元格提取方法为如下所述:就是说,将进行单元格提取所针对的表格区域确定为目标区域,并且用从目标区域的一个边缘到另一个边缘的水平分格线分割目标区域。然后,针对各个分割出来的区域对目标区域进行垂直分割。类似地,轮流进行水平分割和垂直分割,并且重复进行这些分割,直到分割变得不可能进行。然后,提取单元格。
此外,在多种文献中公开了根据分格线相交的交点提取单元格区域的方法。例如,日本专利申请公报JP-A-H8-212292、JP-A-H9-138837、JP-A-H10-40333和JP-A-H8-221506公开了这种方法。基本过程是:从单元格的左上角作为起始点沿着顺时针方向追踪单元格,并且将到起始点的路径标识为单元格区域。
存在着通过前面提到的表格识别技术提取出来的分格线和单元格不正确的情况。尤其是,考虑到在从质量很差的图像中识别表格时会出现很多错误。那么,借助通过提高表格识别的精度减少错误的手段和提高由用户进行错误修正的可操作性的手段,进行了减小由不正确表格识别造成的不良影响的尝试。
作为一种减少错误的尝试,提出了这样一种方法:分格线和单元格的提取结果并不是固定的,而是产生多个候选结果,并且最后,选择一组最佳的候选结果。例如,《A Cell Extraction Method for Form Documents basedon Combinatorial Optimization》(Tanaka、Takebe和Fujimoto,TechnicalResearch Report of the Institute of Electronic,Information andCommunication Engineers,PRMU2005-185,2006年2月)(下文中称为非专利文献3)公开了下述技术。就是,通过使用表格分格线相交处的交点的信息提取出单元格区域的多个候选结果,并且通过组合搜索而获得一组最佳的单元格。在这种技术中,通过为不确定的交点准备多个候选结果,并且产生多个单元格候选结果,实现了交点错误影响的降低。
另一方面,就由用户修正错误分格线和单元格的方法而言,传统上采用这样一种方法:删除错误的部分,并且用户独立输入正确的分格线或单元格,或者通过用户的操作改变错误分格线或单元格的形状,以产生正确的结果。例如,用户通过使用光标101(见图24A)标明错误的单元格1000、删除它(见图24B),然后他或她自己为缺少的部分绘制分格线和/或单元格(见图24C和24D)。此外,在要绘制多个单元格的时候,修正必然会有很多麻烦。这样的编辑操作包括诸如单元格和/或分格线删除和插入以及形状改变等的一些操作。
此外,日本专利申请公告JP-A-H6-60222公开了下述技术。即,从涉及商务表单的输入图像数据中提取出分隔符候选,并且显示出分隔符候选的信息和输入图像数据。然后,基于显示图像数据的屏幕,由用户使用键盘等对分隔符候选执行修正/添加/选择中的至少一种操作,然后将由该执行最终确定的分隔符候选信息登记在格式数据库中。除了防止登记在数据库中的分隔符信息的登记错误和信息缺失之外,如果需要的话,这能够实现信息的添加。此外,在这之后,在识别商务表单的时候,通过参照登记在格式数据库中的分隔符信息,能够很容易地识别出字符,并且能够提高识别精度。不过,这并没有呈现出单元格和分格线的候选以选择其一的配置。
再有,日本专利申请公报JP-A-H8-153161公开了一种文档图像识别装置,该装置具有:用于输入文档作为量化图像数据的文档图像输入单元;用于存储从文档图像输入单元输入的文档图像的文档图像存储器;版面分析器,用于对文档图像进行图形分离、表格分析、列设置分离、线段分离、行分离和字符分离,以提取版面信息;版面错误候选检测器,通过使用构成表格项目的分格线的轮廓的形状,从版面分析器获得的版面信息当中,鉴别出具有很高的表格项目分离错误的可能性的部分,通过核查字符间距和字符宽度鉴别出段分离错误,通过核查行间距和行宽度鉴别出行分离错误,并且分别添加代表错误类型的版面错误标志;版面信息存储器,存储具有版面错误标志的版面信息;字符识别单元,用于识别版面分析器中获得的字符图像,以获得字符代码;字符信息存储器,存储字符识别单元中获得的字符代码;修正指令输入单元,用于输入来自用户的操作;修正处理器,该处理器预先存储区域分割方向和区域分割的数量作为针对表格项目分离错误的版面候选、预先存储片段方向作为针对片段分离错误的版面候选并且预先存储字符串的方向作为针对行分离错误的版面候选,输入版面信息存储器、文档图像存储器和字符信息存储器的相应输出,作为显示信息输出与版面错误标志、文档图像和字符代码相应的版面候选,依照修正指令输入单元的输出从版面候选当中选择正确的版面候选,以作为再分析信息将其输出,并且依照修正指令单元的输出而修正有错的字符代码;再分析控制器,该控制器根据由校正处理器指出的再分析信息使版面分析器启动版面分析处理的再执行过程;和图像显示单元,该图像显示单元显示由修正处理器输出的显示信息。不过,没有公开能够实现单元格形状的直观选择的接口。
此外,日本专利申请公报JP-A-2001-118030公开了一种简化表单的项目名称定义工作和缩短该工作所需的时间的技术。具体来说,从文档的图像中提取出构成文档格式的多个可变项目字段,将所提取的可变项目字段显示给操作人员,以使他或她指定一种可变项目字段。然后,通过使用图像中的特征,提取出与该可变项目字段具体相关的固定项目字段的候选,并且将所提取的固定项目字段显示给操作人员,以使他或她指定一个或更多个固定项目字段。存储可变项目字段与固定项目字段的关联信息,并且使用这一信息来编辑格式数据。因此,能够在短时间内很容易地定义项目名称,并且这种技术即使在一个区域或可变项目字段具有多个项目名称的时候也是适用的。这一公开文本没有公开任何能够实现单元格形状的直观选择的接口。
再有,日本专利申请公报JP-A-2001-109888公开了一种能够实现适应于图像质量的分格线提取处理的分格线提取技术。具体来说,图像输入构件获得输入图像并且不同分辨率图像生成构件产生低分辨率图像和高分辨率图像。分格线候选区域提取构件通过使用所产生的低分辨率图像提取分格线候选区域。图像质量评估构件在所提取的分格线候选区域中搜索像素,以评估图像的质量,并且依照该质量选择处理方法或阈值的构件依照图像质量评估构件的评估结果选择与图像质量相配的处理方法或阈值。用于为各个部分处理选择适当图像分辨率的构件选择要依照图像质量加以处理的图像。通过前面提到的构件,为分格线提取构件选择了正确的处理方法、阈值和要加以处理的图像,以提取出分格线。这一公开文本也没有公开任何能够实现单元格形状的直观选择的接口。
此外,日本专利申请公报JP-A-H11-219442公开了一种依据表单的填充内容而改变输出图像并且编辑和输出它的文档编辑输出装置。具体来说,该装置具有:文档结构分析构件,用于通过将文档图像与文档版面标准进行比较来分析文档的结构;文档版面标准存储构件,用于存储文档版面标准;输入图像数据存储构件,用于存储通过文档结构分析而获得的部分文档图像;图像信息编码构件,用于依据文档版面标准对其内可以编码的部分文档图像进行编码;输出标准存储构件,用于依据由图像信息编码构件获得的编码信息和存储在输入图像数据存储构件内的部分文档图像的内容来存储输出标准,该输出标准用于确定输出图像的内容;输出信息确定构件,用于通过使用输出标准确定输出内容;以及编辑和输出构件,用于输入从输出信息确定构件输出的文档内容,以产生输出图像。这一公开文本也没有公开任何能够实现单元格形状的直观选择的接口。
如上面所介绍的,在根据从表单文档图像中提取的分格线和单元格执行表单格式的设计的表单设计支持装置自动提取分格线和单元格的结果有错的情况下,需要进行编辑操作,比如由用户指出错误的部分,以删除它,并且再次绘制或改变。这样的通过编辑操作进行的错误修正可以需要绘制两次或更多次,并且用户必须小心地识别精确的坐标位置。因此,这对用户来说是很大的负担。
发明内容
因此,本发明的目的是提供一种能够实现对从表单文档图像等中自动提取出来的分格线或单元格进行轻松修正的支持技术。
再有,本发明的另一个目的是提供一种减少修正从表单文档图像等中自动提取出来的分格线或单元格时的工作负担的技术。
根据本发明的第一个方面的表格数据处理方法包括:从包括多个单元格的表格的图像中生成多个候选单元格,并且通过提取所述候选单元格的特定组合而输出初始表格;接受来自用户的在初始表格上对包含在所述初始表格中的特定候选单元格的指定,作为对错误单元格的指定;通过从所述候选单元格的所述特定组合之外的所述候选单元格中选择能够替换所指定的错误单元格的至少一部分的候选单元格,生成候选组,并把所述候选组的数据存储到存储设备中;和为所述用户呈现存储在存储设备中的所述候选组,并且提示所述用户选择所述候选组中包含的所述候选单元格之一。
根据本发明的这个方面,用户仅仅需要选择包含在候选组中的候选单元格之一。因此,修正变得容易。此外,在绘制时用户不再需要麻烦地注意坐标,因而修正的工作负担能够得到缩减。而且,商务效率能够得到提高。
此外,根据本发明的第一个方面的表格数据处理方法还可以包括:为包含在所述候选组中的各个所述候选单元格识别要与包含在所述候选组中的所述候选单元格同时选择的关联候选单元格。在这种情况下,前面提到的呈现和提示可以包括:呈现包含在所述候选组中的所述候选单元格和所述候选单元格的所述关联候选单元格。借助这些步骤,修正变得更加容易。
再有,根据本发明的第一个方面的表格数据处理方法还可以包括:接受来自所述用户的对包含在所述候选组中的一个所述候选单元格的选择,作为对下一候选单元格的选择;识别要紧跟在所选择的下一候选单元格之后选择的第三候选单元格,并且将第三候选单元格的数据存储到存储设备中;和为用户呈现存储在存储设备中的第三候选单元格。如上所述,当修正连续进行时,可以减轻工作负担。
而且,前面提到的识别关联候选单元格可以包括:为包含在所述候选组中的各个所述候选单元格识别非重叠部分,该非重叠部分是所述错误单元格的一个部分,并且包含在所述候选组中的所述候选单元格并不覆盖该非重叠部分;和为包含在所述候选组中的各个所述候选单元格识别除了所述候选单元格的所述特定组合之外的包含所述非重叠部分的候选单元格,作为所述关联候选单元格。
再有,前面提到的识别第三候选单元格可以包括:选择所述初始表格中的空白作为准错误单元格,该空白是由采纳所选择的下一候选单元格并排除所述错误单元格而造成的;和通过象所述错误单元格那样对待所述准错误单元格,执行前面提到的生成所述候选组和后续的处理。
再有,可以将前面提到的表格分为网格块,其中网格块是候选单元格的最小单元。在这种情况下,对于多个候选单元格中的每一个,将构成所述候选单元格的所述网格块的标识数据和代表所述候选单元格是否是构成所述表格的单元格的数据存储在网格数据存储设备中。于是,前面提到的生成候选组可以包括:从网格数据存储设备中识别出构成所指定的错误单元格的网格块;和查阅网格数据存储设备,以从除了候选单元格的特定组合之外的候选单元格中提取出包含所识别的网格块的候选单元格。通过引入网格块,使处理得到了简化并且处理的速度得到了提高。
此外,在引入网格块和网格数据存储设备的情况下,前面提到的识别关联候选单元格可以包括:将从所述网格数据存储设备中识别出来的构成所述候选单元格的所述网格块与构成所述错误单元格的所述网格块进行比较,以便为包含在所述候选组中的各个所述候选单元格识别出非重叠网格块,该非重叠网格块是包含在所述错误单元格中的所述网格块,并且包含在所述候选组中的所述候选单元格并不覆盖该非重叠网格块;和为包含在所述候选组中的各个所述候选单元格,从所述网格数据存储设备中识别出除了所述候选单元格的所述特定组合之外的包含所述非重叠网格块的所述候选单元格,作为所述关联候选单元格。
再有,在引入网格块和网格数据存储设备的情况下,前面提到的生成候选组可以包括:在所述网格数据存储设备中为所指定的错误单元格登记数据,以便从构成所述表格的所述单元格中排除所指定的错误单元格;从所述网格数据存储设备中识别出构成所指定的错误单元格的所述网格块;和从除了所述错误单元格之外的在所述网格数据存储设备中登记为不是构成所述表格的所述单元格的所述候选单元格中提取出包含所识别的网格块的所述候选单元格,作为包含在所述候选组中的所述候选单元格。此外,前面提到的识别第三候选单元格可以包括:将所选择的下一候选单元格在所述网格数据存储设备中登记为构成所述表格的所述单元格;从除了所选择的下一候选单元格之外的在所述网格数据存储设备中登记为构成所述表格的所述单元格的所述候选单元格当中识别出包含构成所述错误单元格的所述网格块的所述候选单元格,并且登记数据,以便从构成所述表格的所述单元格中排除所识别出的候选单元格;识别没有被在所述网格数据存储设备中登记为构成所述表格的所述单元格的所述候选单元格中的任何一个采用的所述网格块,作为所述准错误单元格;和通过象所述错误单元格那样对待所述准错误单元格,执行上述生成所述候选组和后续的处理。
虽然前面提到的本发明的第一个方面针对的是单元格,但是本发明也可以应用于分格线。就是说,根据本发明的第二个方面的表格数据处理方法包括:从包括多个分格线的表格的图像中生成多个候选分格线,并且通过提取所述候选分格线的特定组合而输出初始表格;接受来自用户的在数尺表格上对包含在所述初始表格中的特定候选分格线的指定,作为对错误分格线的指定;通过从除了所述候选分格线的所述特定组合之外的所述候选分格线中选择能够替换所指定的错误分格线的至少一部分的候选分格线,生成候选组,并将所述候选组的数据存储在存储设备中;和向所述用户呈现所述候选组,并且提示所述用户选择所述候选组中包含的所述候选分格线之一。
顺便说一下,可以创建使计算机执行这一根据本发明的方法的程序。将该程序存储到诸如软盘、CD-ROM、磁光盘、半导体存储器或硬盘等的存储介质或存储设备中。此外,在某些情况下,可以通过网络以数字信号的形式发布该程序。正被处理的数据暂时存储在诸如计算机内存等的存储设备中。
附图说明
图1是根据本发明的实施例的表单设计支持装置的功能框图;
图2是示出了本发明的实施例中主处理流程的示意图;
图3A到3F是解释说明主处理流程的预处理过程的示意图;
图4是示出了存储在网格数据存储设备中的数据的示例的示意图;
图5是示出了存储在网格表中的数据的示例的示意图;
图6是示出了由下一候选产生器进行的第一候选单元格修正处理的处理过程的示意图;
图7是示出了输入图像的示例的示意图;
图8是解释说明网格块和索引的示意图;
图9是示出了存储在网格表中的数据的示例的示意图;
图10A和10B是解释说明第一候选单元格修正处理的外观的示意图;
图11A和11B是示出了第一候选单元格修正处理中的画面示例的示意图;
图12是示出了下一候选单元格识别处理的处理流程的示意图;
图13是示出了由关联候选产生器进行的第二候选单元格修正处理的处理流程的示意图;
图14A和14B是解释说明第二候选单元格修正处理的外观的示意图;
图15是示出了由关联候选产生器进行的第二候选单元格修正处理的处理流程的示意图;
图16A和16B是示出了第二候选单元格修正处理中的画面示例的示意图;
图17是示出了由相继候选产生器进行的第三候选单元格修正处理的处理流程的示意图;
图18A到18E是示出了使用相继候选产生器进行的处理的外观的示意图;
图19是示出了由相继候选产生器进行的第三候选单元格修正处理的处理过程的示意图;
图20是示出了存储在网格表中的数据的另一个示例的示意图;
图21是示出了在分格线的情况下网格表的示例的示意图;
图22A到22C是解释说明在分格线的情况下的处理的外观的示意图;
图23是计算机的功能框图;和
图24A到24D是解释说明现有技术的示意图。
具体实施方式
图1示出了根据本发明的实施例的表单设计支持装置的功能框图。本实施例中的这种表单设计支持装置100具有:图像输入单元1,该单元是诸如扫描仪等的设备,以光学手段读取包含表格等的文档;图像数据存储设备3,用于存储由图像输入单元1读取的图像数据;单元格识别处理器5,它执行从所读取的图像数据中自动识别构成表格的单元格的处理;网格数据存储设备7,用于存储诸如由单元格识别处理器5产生的网格表这样的数据;表格识别结果显示单元19,用于通过使用存储在网格数据存储设备7中的数据在显示设备上显示识别结果;错误单元格输入单元11,用于接受用户针对由表格识别结果显示单元19显示的识别结果中包含的候选单元格而做出的错误单元格的指定;候选产生器9,它通过使用存储在网格数据存储设备7中的数据执行识别要呈现给用户的候选单元格的处理;候选数据存储设备13,用于存储由候选产生器9识别出的候选单元格的数据等;候选显示单元15,它通过使用存储在候选数据存储设备13等中的数据在显示设备上显示要呈现给用户的候选单元格;和候选选择输入单元17,它接受用户的候选选择输入、更新存储在网格数据存储设备7中的数据并与候选显示单元15和/或表格识别显示单元19协同操作。
候选产生器9包括下一候选产生器91、关联候选产生器93和相继候选产生器95中的至少一个。
接下来,将通过使用图2到图22解释说明图1中所示的表单设计支持装置100的处理过程。首先,图像输入单元1用光学手段读取包含表格等的表单文档、产生包含表单文档的图像并且将其存储在图像数据存储设备3中。也可以从其它存储设备中获得包含表单文档的图像文件,和经由网络从其它计算机中获得该图像。例如,假设获得的是图3A中所示的图像。顺便说一下,图3A中由虚线表示的部分代表不清楚是否存在分格线的部分(例如,因为分格线模糊不清等的情况而只剩一半或更少的部分)。
接下来,单元格识别处理器5依照例如非专利文献3(或者日本专利申请2006-31581)中公开的算法根据存储在图像数据存储设备3中的图像数据而产生网格数据,并且将该网格数据存储到网格数据存储设备7中(步骤S1)。具体来说,提取出构成表格的垂直分格线和水平分格线,并且如图3B所示,识别出各条分格线的网格点(交叉点和例如存在于同方向的分格线上的交叉点所映射到的点)的坐标,并且将标识符分配给各个网格点。这些坐标是预定点(例如,左上角的网格点)作为原点的情况下的坐标。就网格点的标识符而言,例如将“1”分配给左上角的网格点,并且将数字相继分配给垂直方向上的网格点,并将数字相继分配给水平方向上的网格点。然后,将例如如图4所示的数据存储在网格数据存储设备7中。就是说,针对各个网格点存储坐标值。
顺便说一下,在后续的处理中,即使没有关于分格线长度的信息,也可以从图4中所示的表格中获得网格点的坐标。因此,可以假设如图3C所示的各个单元格的垂直和水平长度彼此相同的情况。此外,在图3B和3C中,可以构成单元格的最小候选单元格称为网格块。在图3B和3C中,存在网格块a到d。再有,例如,如图3C中所示,根据坐标值,将网格索引(1,1)分配给网格块a,将网格索引(1,2)分配给网格块b,将网格索引(2,1)分配给网格块c,并且将网格索引(2,2)分配给网格块d。通过使用网格块,可以将比较坐标等的处理压缩到最小,并且可以简化该处理且可以提高其速度。
接下来,单元格识别处理器5依据前面提到的算法来生成候选单元格组(步骤S3)。例如,根据分格线的可能性,在图3D的示例中,识别出由网格块a构成的候选单元格(1)、由网格块b构成的候选单元格(2)、由网格块b到d构成的候选单元格(3)和由网格块c和d构成的候选单元格(4)。不过,在这个阶段,假设候选单元格是由分格线等识别出来的,并且并没有识别候选单元格与网格块之间的关系。
然后,单元格识别处理器5识别构成各个候选单元格的网格块,并且生成网格表,以将其存储到网格数据存储设备7中(步骤S5)。具体来说,进行下述处理:将各个候选单元格的顶点坐标与存储在网格数据存储设备7中的网格点坐标(图4)进行比较;将各个候选单元格的各个顶点与最近的网格点关联起来;根据单元格顶点与网格点的关联,识别包含在各个候选单元格中的网格块;和登记所识别的网格块。
例如,将如图5所示的网格表存储在网格数据存储设备7中。在图5的示例中,网格表包括:一列采纳标志,代表候选单元格是否得到采纳;一列候选单元格编号;一列候选单元格坐标;一列构成候选单元格的网格索引。在这个阶段,将所有采纳标志都设置为“未采纳”。就坐标而言,主要登记的是左上角顶点(或网格点)的坐标和右下角顶点(或网格点)的坐标。在候选单元格(3)的情况下,可以登记两个分开区域的左上角顶点和右下角顶点的坐标或者所有顶点的坐标。
再有,单元格识别处理器5依照所述算法提取候选单元格的组合的候选以完成该表、识别所提取的组合的候选当中的最有可能的候选单元格最佳组合并且将所识别的候选单元格最佳组合登记到网格数据存储设备7中的网格表中(步骤S7)。在图3E的示例中,提取了候选单元格(1)和(3)的组合以及候选单元格(1)、(2)和(4)的组合作为候选。然后,在这些组合当中,将图3E的右侧识别为最有可能的候选。然后,在网格数据存储设备7的网格表中,将对应于候选单元格(1)、(2)和(4)的采纳标志设置为“采纳”。在图5的示例中,将对应于第一、第二和第四行的采纳标志设置为“采纳”。
然后,表格识别结果显示单元19使用存储在网格输出存储设备7中的网格表的数据来显示候选单元格的最佳组合,作为表格识别结果(步骤S9)。例如,进行如图3F所示的显示。
然后,当用户按下显示屏等上显示的预定按键或预定按钮时,进行候选单元格修正处理(步骤S11)。例如,在显示的是图3F所示的表格的情况下,当用户将候选单元格之一选择为错误单元格时,可以进行步骤S11。
就步骤S11的处理而言,因为使用下一候选产生器91的处理、使用关联候选产生器93的处理和使用相继候选产生器95的处理是彼此不同的,所以将会分开介绍这些处理过程。
(1)在下一候选产生器91的情况下
将通过使用图6到图12来解释说明使用下一候选产生器91的处理。用户观看作为识别结果显示在显示设备上的初始表格,以确认是否存在识别错误。然后,当存在识别错误时,用户使用输入设备(例如,鼠标或光笔)指出涉及识别错误的单元格。表单设计支持装置100的错误单元格输入单元11接受来自用户的错误单元格的选择输入(步骤S21),并且将错误单元格的数据输出到候选产生器9。
例如,将解释说明处理包含图7中所示的表格的图像时的示例。虚线代表模糊不清的分格线。在这样的情况下,在前面提到的处理中,识别出了图8中所示的网格块(索引(1,1)到(1,4)和(2,1)到(2,4)),并且产生了图9中所示的网格表。该网格表的格式与图5相同。根据图9中所示的网格表,表格识别结果显示单元19进行如图10A所示的显示。不过,在这个阶段,还没有进行意味着错误单元格的突出显示(阴影)。当用户指出错误单元格时,对错误单元格进行突出显示,并且将错误单元格的数据输出到下一候选产生器91。
当接收到错误单元格的数据时,候选产生器9的下一候选产生器91将网格数据存储设备7中的网格表中的错误单元格的采纳标志改为“未采纳”(步骤S23)。顺便说一下,错误单元格等的候选单元格编号(在图10A的示例中,是候选单元格编号(2))是保存在例如主存储器内的。此外,下一候选产生器91从网格数据存储设备7中的网格表中识别出构成错误单元格的网格块的索引(步骤S25)。读出在网格索引列中并在错误单元格记录中的数据。在图9的示例中,因为错误单元格是候选单元格编号为(2)的单元格,所以识别的索引为(1,2)和(1,3)。
接下来,下一候选产生器91在除错误单元格之外的未采纳候选单元格当中选择分别包括构成错误单元格的网格块之一的候选单元格作为下一候选单元格(步骤S27)。在图9的示例中,因为选择的是候选单元格包括索引为(1,2)或(1,3)的网格块的候选单元格,如图10B所示,所以选择了编号为(6)、(7)、(8)和(9)的候选单元格。
不过,当选择(6)时,(7)是自动选择的,并且当选择(7)时,(6)是自动选择的。因此,将(7)排除。就是说,当错误单元格由两个网格块构成时,仅可以选择网格块中的任意一个作为下一候选单元格。此外,当掌握了候选单元格的可能性时,可以排除可能性较低的候选单元格,或者排除按照其它规则(例如,仅选择与其它候选单元格有互补关系的候选单元格中的任何一个的规则)排除候选单元格。
然后,下一候选产生器91将下一候选单元格的数据(候选单元格编号和坐标等的数据)存储到候选数据存储设备13中。
候选显示单元15将下一候选单元格呈现在显示设备上(步骤S29)。下一候选单元格的呈现方法可以是按照预定顺序显示下一候选单元格的方法,例如如图11A和11B所示。就是说,当点击了NG按钮时,显示下一个“下一候选单元格”。当已经呈现了所有下一候选单元格时,显示第一个下一候选单元格。另一方面,可以采用在另一个显示栏等中呈现所有下一候选单元格的方法,以使用户能够选择下一候选单元格之一。此时,不仅可以呈现出下一候选单元格的形状,而且还可以呈现出经过缩小的整个表格。用户在所显示的下一候选单元格当中选择一个他或她认为比较合适的候选单元格。
候选选择输入单元17接受来自用户的下一候选单元格的选择输入,并且根据所选择的下一候选单元格的候选单元格编号将网格数据存储设备7中网格表中的采纳标志设置为“采纳”(步骤S31)。然后,候选选择输入单元17指示表格识别结果显示单元19根据存储在网格数据存储设备7中的数据而刷新显示。表格识别结果显示单元19依照来自候选选择输入单元17的指令、通过使用存储在网格数据存储设备7中的数据而更新显示(步骤S33)。
通过执行前述处理,不需要在注意坐标的同时绘制正确的单元格,而是用户仅仅需要选择下一候选单元格。就是说,他或她能够很容易地修正错误单元格,并且可以减少用户的工作负担。
顺便说一下,就步骤S27而言,进行的是如图12所示的处理。就是说,下一候选产生器91识别网格数据存储设备7中的网格表中的未处理和未采用的候选单元格(步骤S41)。就是说,识别一个采纳标志设置为“未采纳”的候选单元格。然后,下一候选产生器91判断所识别出的未采纳候选单元格是否由与构成错误单元格并且在步骤S25中被识别出的网格块完全相同的网格块构成(步骤S43)。就是说,因为错误单元格变成了未采纳候选单元格,所以执行这个步骤,以便不在步骤S43中将错误单元格呈现为下一候选单元格。当未采纳候选单元格由与构成错误单元格的网格块完全相同的网格块构成时,处理过程跳转到步骤S49。
另一方面,当未采纳候选单元格不是由与构成错误单元格的网格块完全相同的网格块构成时,下一候选产生器91判断所识别的未采纳候选单元格是否包括部分覆盖错误单元格的网格块(步骤S45)。当所识别的未采纳候选单元格根本不包括与错误单元格的网格块相同的网格块时,处理过程跳转到步骤S49,因为它不是能够替换错误单元格的候选单元格。另一方面,当所识别的未采纳候选单元格包括部分覆盖错误单元格的网格块时,下一候选产生器91将该未采纳候选单元格识别为下一候选单元格(步骤S47)。
然后,下一候选产生器91判断是否所有的未采纳候选单元格都已经经过了处理(步骤S49),并且当还有未经处理的未采纳候选单元格时,处理过程返回到步骤S41,并且当所有未采纳候选单元格都已经经过处理时,处理过程返回到最初的处理。
(2)在关联候选产生器93的情况下
接下来,将通过使用图13到图16解释说明使用关联候选产生器93的处理过程。在下一候选产生器91的处理过程中,针对一个错误单元格的选择,仅能修正一个候选单元格。不过,当存在一个错误单元格时,它实际上可能对其它候选单元格造成影响。这里,通过将两个或多个候选单元格组合起来,将它们作为关联候选同时呈现。关联候选满足条件(a)组合中的任何候选单元格不与错误单元格完全相同并且下一候选单元格是该组合的核心,条件(b)该组合中的候选单元格不重叠,和条件(c)候选单元格和下一候选单元格的组合能够覆盖错误单元格。
首先,用户观看作为识别结果显示在显示设备上的初始表格,并且确认是否存在识别错误。然后,当有识别错误时,用户使用输入设备(例如,鼠标或光笔)指出涉及到识别错误的单元格。表单设计支持装置100的错误单元格输入单元11接受来自用户的错误单元格的选择输入(步骤S51),并且将错误单元格的数据输出到候选产生器9。这里也将会解释说明处理包含图7中所示表格的图像的示例。类似地,假设在前面提到的处理中识别出图8中所示的网格块并且生成了图9中所示的网格表。然后,表格识别结果显示单元19进行如图14A所示的显示。不过,在这个阶段,还没有进行意味着错误单元格的突出显示(阴影)。当用户指出错误单元格时,对错误单元格进行突出显示,并且将错误单元格的数据输出到关联候选产生器93。
当接收到错误单元格的数据时,候选产生器9的关联候选产生器93将网格数据存储设备7中的网格表内的错误单元格的采纳标志改变为“未采纳”(步骤S53)。顺便说一下,错误单元格的候选单元格编号(在图14A的示例中,候选单元格编号为(2))等是保存在例如主存储器内的。此外,关联候选产生器93从网格数据存储设备7中的网格表中识别出构成错误单元格的网格块的索引(步骤S55)。读取出在网格索引列中并在错误单元格记录中的数据。在图9的示例中,因为错误单元格的候选单元格编号为(2),所以识别出的是索引(1,2)和(1,3)。
接下来,关联候选产生器93在除错误单元格之外的未采纳候选单元格当中选择包括构成错误单元格的网格块之一的候选单元格作为下一候选单元格(步骤S57)。在图9的示例中,因为选择的是包括索引为(1,2)或(1,3)的网格块的候选单元格,所以选择了候选单元格(6)、(7)、(8)和(9)。顺便说一下,具体进行的是图12的处理。
此外,关联候选产生器93为各个下一候选单元格识别出与错误单元格分享(即,与错误单元格共有)的网格块的索引,并且将其存储到诸如主存储器这样的存储设备中(步骤S59)。在图9的示例中,为候选单元格(6)识别了网格块(1,2)、为候选单元格(7)识别了网格块(1,3)、为候选单元格(8)识别了网格块(1,3)并且为候选单元格(9)识别了网格块(1,2)。
再有,关联候选产生93从错误单元格中为各个下一候选单元格提取出排除了在步骤S59识别出的网格块之后的网格块的索引,作为剩余网格块,并且将它们存储到诸如主存储器这样的存储设备中(步骤S61)。为候选单元格(6)识别了网格块(1,3)、为候选单元格(7)识别了网格块(1,2)、为候选单元格(8)识别了网格块(1,2)并且为候选单元格(9)识别了网格块(1,3)。
然后,关联候选产生器93从除错误单元格之外的未采纳候选单元格当中为各个下一候选单元格识别出包含剩余网格块并且与下一候选单元格不同的候选单元格,作为关联候选单元格,并且将下一候选单元格和关联候选单元格的组合作为关联候选登记到候选数据存储设备13中(步骤S63)。
就候选单元格(6)而言,识别的是包含网格块(1,3)的候选单元格(7)和(8)。就是说,构建的是作为候选单元格(6)和(7)的组合的关联候选和作为候选单元格(6)和(8)的组合的关联候选,并且将这些单元格的候选单元格编号、坐标数据等存储到候选数据存储设备13中。
就候选单元格(7)而言,识别的是包含网格块(1,2)的候选单元格(6)和(9)。就是说,构建的是作为候选单元格(7)和(6)的组合的关联候选和作为候选单元格(7)和(9)的组合的关联候选,并且将这些单元格的候选单元格编号、坐标数据等存储到候选数据存储设备13中。
就候选单元格(8)而言,识别的是包含网格块(1,2)的候选单元格(6)和(9)。就是说,构建的是作为候选单元格(8)和(6)的组合的关联候选和作为候选单元格(8)和(9)的组合的关联候选,并且将这些单元格的候选单元格编号、坐标数据等存储到候选数据存储设备13中。
就候选单元格(9)而言,识别的是包含网格块(1,3)的候选单元格(7)和(8)。就是说,构成的是作为候选单元格(9)和(7)的组合的关联候选和作为候选单元格(9)和(8)的组合的关联候选,并且将这些单元格的候选单元格编号、坐标数据等存储到候选数据存储设备13中。
当总结出这些结果时,如图14B所示,产生了8个关联候选。在图14B中,带有阴影的候选单元格是下一候选单元格。不过,就下一候选单元格与关联候选单元格的组合而言,如图14B所示,因为有重复,所以实质上只有4个关联候选。
经由端点A跳转到图15的处理,如前面所介绍的,关联候选产生器93在关联候选当中提取出具有相同网格块组合的关联候选,并且如果它们存在的话,执行合并它们的处理(步骤S65)。具体来说,在候选数据存储设备13中,保留一个重复的关联候选单元格的数据,并且将其它重复的关联候选的数据删除。
然后,候选显示单元15在显示设备上呈现出关联候选(步骤S67)。关联候选的呈现方法可以是按照例如如图16A和16B所示的预定顺序显示关联候选的方法。就是说,当点击了NG按钮时,显示下一关联候选。当已经显示了所有关联候选时,显示第一个关联候选。另一方面,可以采用在另一个显示栏中呈现所有关联候选的方法,以使用户能够选择关联候选之一。此时,不仅可以呈现出关联候选的形状,而且还可以呈现出经过缩小的整个表格。用户在所显示的关联候选当中选择一个他或她认为比较合适的关联候选。
候选选择输入单元17接受来自用户的关联候选的选择输入,并且根据所选择的关联候选的候选单元格编号将网格数据存储设备7中网格表中的采纳标志设置为“采纳”(步骤S69)。然后,候选选择输入单元17指示表格识别结果显示单元19根据存储在网格数据存储设备7中的数据而刷新显示。表格识别结果显示单元19依照来自候选选择输入单元17的指令、通过使用存储在网格数据存储设备7中的数据而更新显示(步骤S71)。
通过执行前述处理,用户仅仅选择关联候选。因为可以设置两个或多个候选单元格,所以更加减少了用户的工作负担。
(3)在相继候选产生器95的情况下
接下来,将通过使用图17到22解释说明使用相继候选产生器95的处理过程。在下一候选产生器91的处理过程中,针对一个错误单元格的选择,仅能修正一个候选单元格。不过,当实际上存在一个错误单元格时,它可能对其它候选单元格造成影响。这里,通过使得用户能够连续地指出错误单元格,每次用户选择下一候选单元格时都呈现出下一候选单元格,以提高可用性和效率。
此外,用户观看作为识别结果显示在显示设备上的初始表格,并且确认是否存在识别错误。然后,当存在识别错误时,用户使用输入设备(例如,鼠标或光笔)指出涉及识别错误的单元格。表单设计支持装置100的错误单元格输入单元11接受来自用户的错误单元格的选择输入(步骤S81),并且将错误单元格的数据输出到候选产生器9。这里也将会解释说明处理包含图9中所示表格的图像的示例。类似地,假设在前面提到的处理中识别出图8中所示的网格块并且生成了图9中所示的网格表。然后,表格识别结果显示单元19进行如图18A所示的显示。不过,在这个阶段,还没有进行意味着错误单元格的突出显示(阴影)。当用户指出错误单元格时,对错误单元格进行突出显示,并且将错误单元格的数据输出到相继候选产生器95。
当接收到错误单元格的数据时,候选产生器9的相继产生器95将网格数据存储设备7中的网格表内的错误单元格的采纳标志改变为“未采纳”(步骤S83)。顺便说一下,错误单元格的候选单元格编号(在图18A的示例中,候选单元格编号为(2))等是保存在例如主存储器内的。此外,相继候选产生器95从网格数据存储设备7中的网格表中识别出构成错误单元格的网格块的索引(步骤S85)。读取出在网格索引列中并在错误单元格记录中的数据。在图9的示例中,因为错误单元格是候选单元格编号为(2)的单元格,所以识别出的是索引(1,2)和(1,3)。
接下来,相继候选产生器95在除错误单元格之外的未采纳候选单元格当中选择包括构成错误单元格的网格块之一的候选单元格作为下一候选单元格(步骤S87)。在图9的示例中,因为选择的是包括索引为(1,2)或(1,3)的网格块的候选单元格,所以选择了候选单元格(6)、(7)、(8)和(9)。顺便说一下,具体进行的是图12的处理。
然后,相继候选产生器95将下一候选单元格的数据(候选单元格编号、坐标等的数据)存储到候选数据存储设备13中。
候选显示单元15在显示设备上呈现出下一候选单元格(步骤S89)。呈现下一候选单元格的方法可以是按照例如如图11A和11B所示的预定顺序显示下一候选单元格的方法。另一方面,可以采用在另一个显示栏中呈现所有下一候选单元格的方法,以使用户能够选择下一候选单元格之一。用户在所显示的下一候选单元格当中选择一个他或她认为比较合适的下一候选单元格。
候选选择输入单元17接受来自用户的下一候选单元格的选择输入,并且根据所选择的下一候选单元格的候选单元格编号而将网格数据存储设备7中网格表中的采纳标志设置为“采纳”(步骤S91)。此外,表格识别结果显示单元19依照来自候选选择输入单元17的指令、按照网格数据存储设备7中的数据来更新显示(步骤S92)。
接下来,相继候选产生器95依照网格数据表7的更新从网格表中识别出构成所选择的下一候选单元格(此时采纳标志设置为“采纳”的候选单元格)的网格块的索引,并且将它们存储到诸如主存储器这样的存储设备中(步骤S93)。当选择候选单元格(6)时,识别出的是网格块(1,2)。当选择候选单元格(7)时,识别出的是网格块(1,3)。当选择候选单元格(8)时,识别出的是网格块(1,3)和(1,4)。当选择候选单元格(9)时,识别的是网格块(1,2)和(1,3)。这里,如图18B所示,当假设选择的是候选单元格(9)时,识别出的是网格块(1,2)和(2,2),并且将它们存储到诸如主存储器这样的存储设备中。
处理过程经由端点B跳转到图19的处理,相继候选产生器95从网格数据存储设备7中的网格表中的除了选定的下一候选单元格之外的已采用单元格中提取包含构成该选定的下一候选单元格的网格块之一的候选单元格,并且将它们存储到诸如主存储器这样的存储设备中(步骤S95)。在图9的示例中,提取的是候选单元格(5)。不过,依据情况,可能不存在这样的候选单元格。
然后,相继候选产生器95判断在步骤S95中是否能够提取出候选单元格(步骤S97)。当不能提取时,处理过程跳转到步骤S101。另一方面,当能够提取出候选单元格时,相继候选产生器95在网格表中将所提取的候选单元格的采纳标志改为“未采纳”(步骤S99)。这里,将采纳标志改为“未采纳”的候选单元格的单元格编号也存储到诸如主存储器这样的存储设备中。在前面的示例中,将候选单元格(5)的采纳标志设置为“未采纳”。这里,如图18C所示,这是删除与新采纳的下一候选单元格重复的候选单元格的处理。
此后,相继候选产生器95从所有网格块中提取未采纳网格块的索引(步骤S101)。在步骤S101的阶段,网格表处于图20所示的状态,采纳的候选单元格的网格块是(1,1)、(1,2)、(1,4)、(2,1)和(2,2),并且所有网格块(1,1)到(1,4)和(2,1)到(2,4)当中的未采纳网格块是(1,3)、(2,3)和(2,4)。
然后,相继候选产生器95判断在步骤S101中是否能够提取出未采纳的网格块(步骤S103)。当没有未采纳网格块时,处理过程返回到初始处理,因为所有的网格块都由候选单元格覆盖了。
另一方面,当有至少一个未采纳网格块时,相继候选产生器95将步骤S101中识别出的所有网格块都识别为准错误单元格,并且将它们存储到诸如主存储器这样的存储设备中(步骤S105)。然后,处理过程经由端点C返回到步骤S87,在按照由用户指定的错误单元格那样处理准错误单元格的同时,执行处理。顺便说一下,因为由用户指定的错误单元格不会再次采用,所以必须从步骤S87中的候选中排除。再有,因为在步骤S99中不适合呈现设置为“未采纳”的候选单元格,所以必须在步骤S87中予以排除。
在图20的示例中,将图18D中带有阴影的部分识别为准错误单元格。因此,在下一个步骤S87中,当识别出包含(1,3)、(2,3)和(2,4)之一的未采纳候选单元格时,将候选单元格(7)、(8)和(10)识别为下一候选单元格。就是说,如图18E所示,呈现出了三种类型的候选单元格。呈现方法是步骤S89中介绍的方法。
通过进行这样的处理,可以修正通过依次指定错误单元格而识别的另一个错误单元格,并且用户的修正工作变得简单且容易。进而,商务效率得到了提高。
虽然前面解释说明了表格中单元格的修正过程,但是这种实施例也可以应用于构成表格的分格线的修正。具体来说,使用图21中所示的网格表。就是说,该表格包括采纳标志栏、分格线编号栏、坐标栏(开始点和结束点)、开始点索引栏(网格点的标识符)和结束点索引栏。这样,通过使用开始点和结束点的网格点的标识符(索引),而不是网格块的索引,来识别分格线。而且在分格线的情况下,通过象网格块那样对待单位网格点之间的分格线,可以应用类似的处理。
此外,在分格线的情况下也是一样,当用户如图22A中所示的那样指出错误分格线时,显示出如图22B所示的分格线候选。在图22B的示例中,给出的是同时显示所有候选(候选A到C)的示例。在分格线的情况下,因为有显示空间,所以即使同时显示所有的候选,通常也没有太大问题。不过,分格线候选也可以一个一个地呈现。当用户指定例如分格线候选B时,如图22C所示的那样替换该分格线。
虽然解释说明了本发明的实施例,但是本发明并不局限于这种实施例。例如,画面示例仅仅是示例,并且可以改变为不同的形式。就是说,可以通过按下预定按键来显示下一个候选,而不是使用OK按钮或NG按钮,并且还可以借助回车键确认下一候选。
此外,图1中所示的功能框图仅仅是个示例,并且它不总是代表实际的程序模块构成。
顺便说一下,表单设计支持装置100是图23中所示的计算机设备。就是说,如图28所示,存储器2501(存储设备)、CPU 2503(处理器)、硬盘驱动器(HDD)2505、与显示设备2509相连的显示控制器2507、用于可移动盘2511的驱动设备2513、输入设备2515和用于与网络连接的通信控制器2517通过总线2519相连接。操作系统(OS)和用于执行前述实施例中的处理的应用程序存储在HDD 2505中,并且在由CPU 2503执行该操作系统和应用程序时,将它们从HDD 2505中读取到存储器2501中。随着需求的出现,CPU 2503控制显示器控制器2507、通信控制器2517和驱动设备2513,并且使它们进行必需的操作。此外,将中间处理数据存储在存储器2501中,并且如果需要,将其存储在HDD 2505中。在本发明的这种实施例中,实现前述功能的应用程序是存储在可移动盘2511中并且在可移动盘2511中进行发布的,然后将其从驱动设备2513安装到HDD2505中。也可以经由诸如因特网这样的网络和通信控制器2517,将其安装到HDD 2505中。在前面所叙述的计算机中,诸如CPU 2503和存储器2501这样的硬件、OS和必需的应用程序是彼此系统性地协同工作的,从而使得前面详细介绍的各种功能得以实现。
虽然本发明是针对其具体优选实施例加以介绍的,但是本领域技术人员可以想到各种改变和修改,并且意在本发明包含这些落在所附权利要求的范围之内的改变和修改。

Claims (15)

1.一种表格数据处理方法,所述方法包括:
从包括多个单元格的表格的图像中生成多个候选单元格,并且通过提取所述候选单元格的特定组合而输出初始表格;
接受来自用户的对包含在所述初始表格中的特定候选单元格的指定,作为对错误单元格的指定;
通过从所述候选单元格的所述特定组合之外的所述候选单元格中选择能够替换所指定的错误单元格的至少一部分的候选单元格,生成候选组;和
向所述用户呈现所述候选组,并且提示所述用户选择所述候选组中包含的所述候选单元格之一。
2.根据权利要求1所述的方法,所述方法还包括:
为包含在所述候选组中的各个所述候选单元格识别要与包含在所述候选组中的所述候选单元格同时选择的关联候选单元格,
其中所述呈现和提示包括:
呈现包含在所述候选组中的所述候选单元格和所述候选单元格的所述关联候选单元格。
3.根据权利要求1所述的方法,所述方法还包括:
接受来自所述用户的对包含在所述候选组中的一个所述候选单元格的选择,作为对下一候选单元格的选择;
识别要紧跟在所选择的下一候选单元格之后选择的第三候选单元格;和
为所述用户呈现所述第三候选单元格。
4.根据权利要求2所述的方法,其中所述识别包括:
为包含在所述候选组中的各个所述候选单元格识别非重叠部分,该非重叠部分是所述错误单元格的一部分,并且包含在所述候选组中的所述候选单元格并不覆盖该非重叠部分;和
为包含在所述候选组中的各个所述候选单元格识别所述候选单元格的所述特定组合之外的包含所述非重叠部分的候选单元格,作为所述关联候选单元格。
5.根据权利要求3所述的方法,其中所述识别包括:
选择所述初始表格中的空白作为准错误单元格,该空白是由采纳所选择的下一候选单元格并排除所述错误单元格而造成的;和
通过按照所述错误单元格那样对待所述准错误单元格,执行所述候选组的所述生成和后续处理。
6.根据权利要求1所述的方法,其中将所述表格分为网格块,各个所述网格块是所述候选单元格的最小单元,并且对于所述多个候选单元格中的每一个,将构成所述候选单元格的所述网格块的标识数据和代表所述候选单元格是否是构成所述表格的单元格的数据存储在网格数据存储设备中,并且
所述生成所述候选组包括:
从所述网格数据存储设备中识别出构成所指定的错误单元格的所述网格块;和
查阅所述网格数据存储设备,以从除了所述候选单元格的所述特定组合之外的所述候选单元格中提取出包含所识别出的网格块的所述候选单元格。
7.根据权利要求2所述的方法,其中将所述表格分为网格块,各个所述网格块是所述候选单元格的最小单元,并且对于所述多个候选单元格中的每一个,将构成所述候选单元格的所述网格块的标识数据和代表所述候选单元格是否是构成所述表格的单元格的数据存储在网格数据存储设备中,并且
所述生成所述候选组包括:
从所述网格数据存储设备中识别出构成所指定的错误单元格的所述网格块;和
查阅所述网格数据存储设备,以从除了所述候选单元格的所述特定组合之外的所述候选单元格中提取出包含所识别出的网格块的所述候选单元格,作为包含在所述候选组中的所述候选单元格,和
所述识别所述关联候选单元格包括:
将从所述网格数据存储设备中识别出来的构成所述候选单元格的所述网格块与构成所述错误单元格的所述网格块进行比较,以便为包含在所述候选组中的各个所述候选单元格识别出非重叠网格块,该非重叠网格块是包含在所述错误单元格中的所述网格块,并且包含在所述候选组中的所述候选单元格并不覆盖该非重叠网格块;和
为包含在所述候选组中的各个所述候选单元格,从所述网格数据存储设备中识别出除了所述候选单元格的所述特定组合之外的包含所述非重叠网格块的所述候选单元格,作为所述关联候选单元格。
8.根据权利要求3所述的方法,其中将所述表格分为网格块,各个所述网格块是所述候选单元格的最小单元,并且对于所述多个候选单元格中的每一个,将构成所述候选单元格的所述网格块的标识数据和代表所述候选单元格是否是构成所述表格的单元格的数据存储在网格数据存储设备中,并且
所述生成所述候选组包括:
在所述网格数据存储设备中为所指定的错误单元格登记数据,以便从构成所述表格的所述单元格中排除所指定的错误单元格;
从所述网格数据存储设备中识别出构成所指定的错误单元格的所述网格块;和
从除了所述错误单元格之外的在所述网格数据存储设备中登记为不是构成所述表格的所述单元格的所述候选单元格中提取出包含所识别出的网格块的所述候选单元格,作为包含在所述候选组中的所述候选单元格,和
所述识别第三候选单元格包括:
将所选择的下一候选单元格在所述网格数据存储设备中登记为构成所述表格的所述单元格;
从除了所选择的下一候选单元格之外的在所述网格数据存储设备中登记为构成所述表格的所述单元格的所述候选单元格当中识别出包含构成所述错误单元格的所述网格块的所述候选单元格,并且登记数据,以便从构成所述表格的所述单元格中排除所识别出的候选单元格;
识别没有被在所述网格数据存储设备中被登记为构成所述表格的所述单元格的所述候选单元格中的任何一个采用的所述网格块,作为准错误单元格;和
通过按照所述错误单元格那样对待所述准错误单元格,执行所述生成所述候选组和后续处理。
9.一种表格数据处理方法,所述方法包括:
从包括多个分格线的表格的图像中生成多个候选分格线,并且通过提取所述候选分格线的特定组合而输出初始表格;
接受来自用户的对包含在所述初始表格中的特定候选分格线的指定,作为对错误分格线的指定;
通过从除了所述候选分格线的所述特定组合之外的所述候选分格线中选择能够替换所指定的错误分格线的至少一部分的候选分格线,生成候选组;和
向所述用户呈现所述候选组,并且提示所述用户选择所述候选组中包含的所述候选分格线之一。
10.根据权利要求9所述的方法,所述方法还包括:
为包含在所述候选组中的各个所述候选分格线识别要与包含在所述候选组中的所述候选分格线同时选择的关联候选分格线,
其中所述呈现和提示包括:
呈现包含在所述候选组中的所述候选分格线和所述候选分格线的所述关联候选分格线。
11.根据权利要求9所述的方法,所述方法还包括:
接受来自所述用户的对包含在所述候选组中的一个所述候选分格线的选择,作为对下一候选分格线的选择;
识别要紧跟在所选择的下一候选分格线之后选择的第三候选分格线;和
为所述用户呈现所述第三候选分格线。
12.一种表格数据处理装置,所述装置包括:
从包括多个单元格的表格的图像中生成多个候选单元格并且通过提取所述候选单元格的特定组合而输出初始表格的单元;
接受来自用户的对包含在所述初始表格中的特定候选单元格的指定来作为对错误单元格的指定的单元;
通过从除了所述候选单元格的所述特定组合之外的所述候选单元格中选择能够替换所指定的错误单元格的至少一部分的候选单元格来生成候选组的单元;和
输出单元,向所述用户呈现所述候选组,并且提示所述用户选择所述候选组中包含的所述候选单元格之一。
13.根据权利要求12所述的表格数据处理装置,所述装置还包括:
为包含在所述候选组中的各个所述候选单元格识别要与包含在所述候选组中的所述候选单元格同时选择的关联候选单元格的单元,
其中所述输出单元包括:
呈现包含在所述候选组中的所述候选单元格和所述候选单元格的所述关联候选单元格的单元。
14.根据权利要求12所述的表格数据处理装置,所述装置还包括:
接受来自所述用户的对包含在所述候选组中的一个所述候选单元格的选择来作为对下一候选单元格的选择的单元;
识别要紧跟在所选择的下一候选单元格之后选择的第三候选单元格的单元;和
为所述用户呈现所述第三候选单元格的单元。
15.一种表格数据处理装置,所述装置包括:
从包括多个分格线的表格的图像中生成多个候选分格线并且通过提取所述候选分格线的特定组合而输出初始表格的单元;
接受来自用户的对包含在所述初始表格中的特定候选分格线的指定来作为对错误分格线的指定的单元;
通过从除了所述候选分格线的所述特定组合之外的所述候选分格线中选择能够替换所指定的错误分格线的至少一部分的候选分格线来生成候选组的单元;和
为所述用户呈现所述候选组并且提示所述用户选择所述候选组中包含的所述候选分格线之一的单元。
CN2006101714470A 2006-08-14 2006-12-27 表格数据处理方法和装置 Expired - Fee Related CN101127081B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2006-221118 2006-08-14
JP2006221118 2006-08-14
JP2006221118A JP4973063B2 (ja) 2006-08-14 2006-08-14 表データ処理方法及び装置

Publications (2)

Publication Number Publication Date
CN101127081A CN101127081A (zh) 2008-02-20
CN101127081B true CN101127081B (zh) 2010-05-19

Family

ID=39052257

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2006101714470A Expired - Fee Related CN101127081B (zh) 2006-08-14 2006-12-27 表格数据处理方法和装置

Country Status (3)

Country Link
US (1) US20080040655A1 (zh)
JP (1) JP4973063B2 (zh)
CN (1) CN101127081B (zh)

Families Citing this family (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5361574B2 (ja) * 2009-07-01 2013-12-04 キヤノン株式会社 画像処理装置、画像処理方法、及びプログラム
JP4940270B2 (ja) * 2009-07-06 2012-05-30 シャープ株式会社 画像形成装置
CN101866335B (zh) * 2010-06-14 2012-12-12 深圳市万兴软件有限公司 一种文档转换中的表格处理方法及装置
US9734132B1 (en) * 2011-12-20 2017-08-15 Amazon Technologies, Inc. Alignment and reflow of displayed character images
CN103377177B (zh) * 2012-04-27 2016-03-30 北大方正集团有限公司 一种数字版式文件中识别表格的方法及装置
JP5822865B2 (ja) * 2013-04-25 2015-11-25 京セラドキュメントソリューションズ株式会社 画像処理装置、罫線判定方法、及び罫線判定プログラム
KR102161053B1 (ko) * 2013-09-06 2020-09-29 삼성전자주식회사 영상에 포함된 표의 구조를 생성하는 방법 및 이를 위한 장치
RU2604668C2 (ru) * 2014-06-17 2016-12-10 Общество с ограниченной ответственностью "Аби Девелопмент" Визуализация машинно-генерируемого изображения документа
CN104090850B (zh) * 2014-06-24 2017-07-14 上海铀尼信息科技有限公司 在线表格系统及其数据管理方法
US10607381B2 (en) 2014-07-07 2020-03-31 Canon Kabushiki Kaisha Information processing apparatus
JP6489768B2 (ja) * 2014-07-07 2019-03-27 キヤノン株式会社 情報処理装置、情報処理方法、プログラム
CN106156715A (zh) * 2015-04-24 2016-11-23 富士通株式会社 分析表格图像的布局的方法和设备
US10740123B2 (en) 2017-01-26 2020-08-11 Nice Ltd. Method and system for accessing table content in a digital image of the table
US11995428B2 (en) 2017-01-26 2024-05-28 Nice Inc. Method and system for providing image-based interoperability with an application
US10540167B2 (en) 2017-01-26 2020-01-21 Nice Ltd. Image based method and system for building object model and application states comparison and graphic-based interoperability with an application
CN107315989B (zh) * 2017-05-03 2020-06-12 天方创新(北京)信息技术有限公司 针对医学资料图片的文本识别方法和装置
US11209806B2 (en) * 2017-09-13 2021-12-28 Fisher-Rosemount Systems, Inc. Assistant application for a modular control system
US11650970B2 (en) 2018-03-09 2023-05-16 International Business Machines Corporation Extracting structure and semantics from tabular data
CN108664945B (zh) * 2018-05-18 2021-08-10 徐庆 图像文本及形音义特征识别方法和装置
CN110659527B (zh) * 2018-06-29 2023-03-28 微软技术许可有限责任公司 电子表单中的表格检测
US11200413B2 (en) * 2018-07-31 2021-12-14 International Business Machines Corporation Table recognition in portable document format documents
JP7211157B2 (ja) * 2019-02-27 2023-01-24 日本電信電話株式会社 情報処理装置、関連付け方法および関連付けプログラム
CN110502985B (zh) * 2019-07-11 2022-06-07 新华三大数据技术有限公司 表格识别方法、装置及表格识别设备
JP2021114211A (ja) * 2020-01-21 2021-08-05 富士フイルムビジネスイノベーション株式会社 情報処理装置及びプログラム
CN111695553B (zh) * 2020-06-05 2023-09-08 北京百度网讯科技有限公司 表格识别方法、装置、设备和介质
CN112528724A (zh) * 2020-09-17 2021-03-19 上海海隆软件有限公司 表格单元格抽出方法、装置、设备及计算机可读存储介质
US11790110B2 (en) 2021-02-09 2023-10-17 Nice Ltd. System and method for preventing sensitive information from being recorded
CN113204557B (zh) 2021-05-21 2024-02-13 北京字跳网络技术有限公司 电子表格导入方法、装置、设备及介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5420695A (en) * 1992-03-05 1995-05-30 Ricoh Company, Ltd. Image reading and forming apparatus for identifying and correcting the gridlines of a table
US6006240A (en) * 1997-03-31 1999-12-21 Xerox Corporation Cell identification in table analysis
CN1492377A (zh) * 2002-10-21 2004-04-28 株式会社日立制作所 表格处理系统及方法
CN1534539A (zh) * 1996-12-27 2004-10-06 ��ʿͨ��ʽ���� 表格形式识别设备与方法

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3838729C2 (de) * 1987-11-16 1994-05-05 Canon Kk Dokumentverarbeitungsgerät
JP2789971B2 (ja) * 1992-10-27 1998-08-27 富士ゼロックス株式会社 表認識装置
JPH06162269A (ja) * 1992-11-27 1994-06-10 Ricoh Co Ltd 手書き文字認識装置
JPH06195519A (ja) * 1992-12-25 1994-07-15 Matsushita Electric Ind Co Ltd 文字認識装置および文字認識方法
JP2687902B2 (ja) * 1994-11-28 1997-12-08 日本電気株式会社 文書画像認識装置
US6317758B1 (en) * 1998-02-20 2001-11-13 Corel Corporation Method and system for detecting and selectively correcting cell reference errors
JP4235286B2 (ja) * 1998-09-11 2009-03-11 キヤノン株式会社 表認識方法及び装置
US6549878B1 (en) * 1998-12-31 2003-04-15 Microsoft Corporation System and method for editing a spreadsheet via an improved editing and cell selection model
EP1037157A1 (en) * 1999-03-05 2000-09-20 International Business Machines Corporation Method and system for processing different cell protection modes in an electronic spreadsheet
CA2311866A1 (en) * 2000-01-06 2001-07-06 International Business Machines Corporation Method and system in an electronic spreadsheet for adding or removing elements from a cell named range according to different modes
US20010034740A1 (en) * 2000-02-14 2001-10-25 Andruid Kerne Weighted interactive grid presentation system and method for streaming a multimedia collage
GB2364580A (en) * 2000-07-07 2002-01-30 Ibm Error detection mechanisms in spreadsheet packages
US7117430B2 (en) * 2001-02-27 2006-10-03 Microsoft Corporation Spreadsheet error checker
JP4093012B2 (ja) * 2002-10-17 2008-05-28 日本電気株式会社 ハイパーテキスト検査装置および方法並びにプログラム
JP4183527B2 (ja) * 2003-02-24 2008-11-19 日立オムロンターミナルソリューションズ株式会社 帳票定義データ作成方法および帳票処理装置
US7882427B2 (en) * 2003-07-24 2011-02-01 Balenz Software, Inc. System and method for managing a spreadsheet
US7127672B1 (en) * 2003-08-22 2006-10-24 Microsoft Corporation Creating and managing structured data in an electronic spreadsheet
JP2006003980A (ja) * 2004-06-15 2006-01-05 Omron Corp 認識結果表示方法、プログラム、携帯端末及び認識結果表示装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5420695A (en) * 1992-03-05 1995-05-30 Ricoh Company, Ltd. Image reading and forming apparatus for identifying and correcting the gridlines of a table
CN1534539A (zh) * 1996-12-27 2004-10-06 ��ʿͨ��ʽ���� 表格形式识别设备与方法
US6006240A (en) * 1997-03-31 1999-12-21 Xerox Corporation Cell identification in table analysis
CN1492377A (zh) * 2002-10-21 2004-04-28 株式会社日立制作所 表格处理系统及方法

Also Published As

Publication number Publication date
JP4973063B2 (ja) 2012-07-11
CN101127081A (zh) 2008-02-20
JP2008046812A (ja) 2008-02-28
US20080040655A1 (en) 2008-02-14

Similar Documents

Publication Publication Date Title
CN101127081B (zh) 表格数据处理方法和装置
US11868717B2 (en) Multi-page document recognition in document capture
US10592184B2 (en) Method and device for parsing tables in PDF document
US11182604B1 (en) Computerized recognition and extraction of tables in digitized documents
US8107727B2 (en) Document processing apparatus, document processing method, and computer program product
JP3425408B2 (ja) 文書読取装置
CN102194123B (zh) 表格模板定义方法和装置
CN101206639B (zh) 一种基于pdf的复杂版面的标引方法
CN103384896A (zh) 数字漫画编辑装置及其方法
CN104871122B (zh) 显示控制设备和显示控制方法
US20150169510A1 (en) Method and system of extracting structured data from a document
CN109726369A (zh) 一种基于标准文献的智能模板化题录技术实现方法
JP2005216203A (ja) 表フォーマットデータ処理方法並びに表フォーマットデータ処理装置
JP2012190434A (ja) 帳票定義装置、帳票定義方法、プログラム及び記録媒体
JPH04175966A (ja) 文書論理構造生成方法
Budig Extracting spatial information from historical maps: algorithms and interaction
JP2009031937A (ja) 帳票画像処理装置及び帳票画像処理プログラム
JP2017187931A (ja) 表データ変換方法、プログラム、画像読取装置
JP2000322417A (ja) 画像ファイリング装置及び方法及び記憶媒体
JP2005234790A (ja) 手書き帳票処理システム、手書き帳票処理方法
JP5134383B2 (ja) Ocr装置、証跡管理装置及び証跡管理システム
JP4466241B2 (ja) 文書処理手法及び文書処理装置
CN112347831A (zh) 信息处理装置以及表识别方法
JPH10198761A (ja) 文字認識方法および文字認識装置
JP5574272B2 (ja) 画像読取装置、画像処理装置およびプログラム

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20100519

Termination date: 20141227

EXPY Termination of patent right or utility model