CN101366020A - 墨水笔记中的表格检测 - Google Patents
墨水笔记中的表格检测 Download PDFInfo
- Publication number
- CN101366020A CN101366020A CNA2006800489026A CN200680048902A CN101366020A CN 101366020 A CN101366020 A CN 101366020A CN A2006800489026 A CNA2006800489026 A CN A2006800489026A CN 200680048902 A CN200680048902 A CN 200680048902A CN 101366020 A CN101366020 A CN 101366020A
- Authority
- CN
- China
- Prior art keywords
- line segment
- computer
- candidate
- readable medium
- stroke
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/412—Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/32—Digital ink
- G06V30/333—Preprocessing; Feature extraction
- G06V30/347—Sampling; Contour coding; Stroke extraction
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Character Discrimination (AREA)
- Image Analysis (AREA)
- Character Input (AREA)
- Pens And Brushes (AREA)
- Ink Jet (AREA)
Abstract
检测手写文档中的表格的具有计算机可执行指令的计算机可读介质和装置。从绘图笔画中导出线段以获得候选表格的边界框架。随后从该边界框架、该边界框架内的线段以及其交叉点来识别相关联的表格结构。确定反映至少一个表格特性的分类器,并且由此确认或拒绝候选表格。
Description
背景
计算机用户习惯于使用鼠标和键盘作为与个人计算机交互的一种方式。尽管个人计算机提供了优于印刷文档的多个优点,但是用户通常继续使用印刷纸张来执行某些功能。这些功能中的某一些包括阅读手写文档。在注释的情况下,由于用户放置在其上的注释,印刷文档呈现出更大的重要性。然而,具有手写文档的困难之一是后者需要将内容输回到电子形式的文档中。这需要原始用户或另一用户费力地读完该手写文档然后将其输入个人计算机中。在某些情况下,用户将扫描输入手写内容和原始文档,由此创建一新的文档。这多个步骤使得印刷文档与电子版本的文档之间的交互难以在重复的基础上处理。此外,扫描输入的图像通常是不可修改的。可能没有方法来将手写内容与原始文本分离。这使得使用手写文档变得困难。因此,需要一种处理手写内容的改进方法。
随着计算机和电子数据库的普及性的增加,对于数字形式的文档的有效存储、处理和检索的需求也越来越大。文档可以是可由用户注释的、手写的或机器生成的文档。因此,表格和其它类型的手写对象通常被包含在文档中。例如,表格通常在文档中用于描述统计和关系信息。由此,提取手写表格在文档处理中起很重要的作用。表格具有许多应用,包括填充数据库,该数据库随后可被操纵或查询或将目标重定为图表。
检测和处理手写对象随着计算机系统上的电子文档的越来越多的使用和传输而变得愈发重要。增强的支持将有助于办公自动化。
概述
检测手写文档中的表格。从绘出的笔画中导出线段,以便获得候选表格的边界框架。因此从该边界框架、该边界框架内的线段、以及候选表格的交叉点中识别相关联的表格结构。确定反映至少一个表格特性的分类器,并且由此确认候选表格。
提供本概述以便用简化的形式介绍将在以下详细描述中进一步描述的一些概念。本概述并非旨在确定所要求保护的主题的关键特征或必要特征,也不旨在用于确定所要求保护的主题的范围。
附图简述
当结合附图阅读时,可以更好地理解以上本发明的概述以及以下较佳实施例的详细描述,附图作为示例而非对所要求保护的本发明的限制而被包括在此。
图1是可用于实现本发明的各方面的常规通用数字计算环境的一个示例的功能框图。
图2示出了根据本发明的一个说明性方面的包含文本、图表、图形以及表格的手写文档的一个示例。
图3示出了根据本发明的一个说明性方面的用于检测手写文档中的表格的算法的流程图。
图4示出了根据本发明的一个说明性方面的图3所示的流程图的延续。
图5示出了根据本发明的一个说明性方面的解析手写文档的装置。
图6示出了根据本发明的一个说明性方面的可检测和不可检测表格。
图7示出了根据本发明的一个说明性方面的所检测到的线段的示例。
图8示出了根据本发明的一个说明性方面的笔画分段和逼近。
图9示出了根据本发明的一个说明性方面的线段的合并。
图10示出了根据本发明的一个说明性方面的用于检测表格边界框架的流程图。
图11示出了根据本发明的一个说明性方面的合成框架线段的示例。
图12示出了根据本发明的一个说明性方面的线段的线性度。
图13示出了根据本发明的一个说明性方面的用于确定两条线段的串接强度的各因素。
图14示出了根据本发明的一个说明性方面的用于确定一对线段的相似性的各因素。
图15示出了根据本发明的一个说明性方面的用于确定候选边界框架的矩形度的各因素。
图16示出了根据本发明的一个说明性方面的对候选边界框架的显著度的确定。
图17示出了根据本发明的一个说明性方面的虚拟边界框架的形成。
图18示出了根据本发明的一个说明性方面的表格框架的标准化。
图19示出了根据本发明的一个说明性方面的表格结构识别。
图20示出了根据本发明的一个说明性方面的放弃与错误交叉点有关的线段。
图21示出了根据本发明的一个说明性方面的第i个单元格和第j个笔画的公共区域。
图22示出了根据本发明的一个说明性方面的关于书写输入是否对应于被确认的表格的判决树。
图23示出了根据本发明的一个说明性方面的没有表格检测的解析树的结构。
图24示出了根据本发明的一个说明性方面的带有表格检测的解析树的结构。
图25示出了根据本发明的一个说明性方面的手写文档的检测结果。
图26示出了根据本发明的一个说明性方面的表格检测的示例。
图27示出了根据本发明的一个说明性方面的表格检测的示例。
图28示出了根据本发明的一个说明性方面的检测多个表格的示例。
图29示出了根据本发明的一个说明性方面的手写文档中的歪斜的表格。
图30示出了根据本发明的一个说明性方面的通过水平地重新排列表格来编辑图29所示的歪斜的表格。
图31示出了根据本发明的一个说明性方面的通过移动图30所示的表格内的框架线对歪斜的表格的进一步编辑。
图32示出了根据本发明的一个说明性方面的对图29-31所示的表格的变换以形成图表。
图33示出了根据本发明的一个说明性方面的由对象检测构架检测到的结构化手写对象。
详细描述
本发明的各方面涉及区分书写输入的至少一部分的手迹类型。
为方便读者,下文按照小标题来分开。小标题包括:术语、通用计算机、手写文档的示例、检测手写表格的综述、预处理、检测边界框架、准表格形成、表格结构识别、单元格内容的分析、分类器的确定、解析树的结构、实验结果、表格检测之后的编辑、以及用于检测结构化手写对象的构架。
术语
笔:可以包括或不包括存储墨水的能力的任何书写工具。在某些示例中,不带有墨水能力的指示笔可被用作根据本发明的各实施例的笔。一个示例是微软的通用笔(uPen)。
笔画:从笔按下(或鼠标按下)到笔提起(或鼠标提起)收集的点的时间序列。笔画可以被分类为绘图笔画或书写笔画。绘图笔画是图形对象的一部分,而书写笔画是书写文本的一部分。
段:通过在高曲率点处切断笔画所获得的笔画的一部分。
曲线段:笔画上两个端点之间的曲线路径。逼近弧的曲线段在该弧的半径变得足够大或曲线段足够短时可以被简化为线段。
准表格:由边界框架和该边界框架内的所有线段形成的候选表格。
通用计算机
图1是可用于处理来自笔(例如,指示笔166)的书写输入的常规通用数字计算环境的一个示例的功能框图。在图1中,计算机100包括处理单元110、系统存储器120以及将包括系统存储器在内的各种系统组件耦合到处理单元110的系统总线130。系统总线130可以是若干种总线结构中的任一种,包括存储器总线或存储器控制器、外围总线、以及使用各种总线体系结构中的任一种的局部总线。系统存储器120包括只读存储器(ROM)140和随机存取存储器(RAM)150。
基本输入/输出系统160(BIOS)包含诸如在启动期间帮助在计算机100内的元件内传输信息的基本例程,它被储存在ROM 140中。计算机100还包括用于对硬盘(未示出)进行读写的硬盘驱动器170,用于对可移动磁盘190进行读写的磁盘驱动器180,以及用于对诸如CD ROM或其它光学介质等可移动光盘192进行读写的光盘驱动器191。硬盘驱动器170、磁盘驱动器180和光盘驱动器191分别通过硬盘驱动器接口192、磁盘驱动器接口193和光盘驱动器接口194连接到系统总线130。驱动器及其相关联的计算机可读介质为个人计算机100提供了对计算机可读指令、数据结构、程序模块和其它数据提供了非易失性存储。本领域的技术人员可以理解,在示例操作环境中也可以使用能储存可被计算机访问的数据的其它类型的计算机可读介质,诸如磁带盒、闪存卡、数字视频盘、Bernoulli盒式磁带、随机存取存储器(RAM)、只读存储器(ROM)等等。
多个程序模块可被储存在硬盘驱动器170、磁盘190、光盘192、ROM 140或RAM 150中,包括操作系统195、一个或多个应用程序196、其它程序模块197以及程序数据198。用户可以通过诸如键盘101和定点设备102等输入设备向计算机100输入命令和信息。其它输入设备(未示出)可以包括话筒、操纵杆、游戏手柄、圆盘式卫星天线、扫描仪等等。这些和其它输入设备通常通过耦合到系统总线的串行端口接口106连接到处理单元110,但是也可通过诸如并行端口、游戏端口或通用串行总线(USB)等其它接口连接。此外,这些设备可以通过适当的接口(未示出)直接耦合到系统总线130。监视器107或其它类型的显示设备也通过诸如视频适配器108等接口连接到系统总线130。除了监视器之外,个人计算机通常包括其它外围输出设备(未示出)。如扬声器和打印机。
在一个实施例中,提供了笔数字化仪165和附带的笔或指示笔166以便数字地捕捉手绘输入来为处理单元110提供书写输入(例如,手写文档)。尽管示出了笔数字化仪165和串行端口之间的直接连接,但是在实践中,笔数字化仪165可如本领域中已知的那样通过并行端口或其它接口以及系统总线130直接耦合到处理单元110。此外,尽管数字化仪165被示为与监视器107分开,但是数字化仪165的可使用输入区域与监视器107的显示区域同广度是较佳的。此外,数字化仪165可以被集成在监视器107中,或者可以作为覆盖或以其它方式附加到监视器107的单独设备而存在。
计算机100可以使用到诸如远程计算机109等一个或多个远程计算机的逻辑连接在联网环境中操作。远程计算机109可以是服务器、路由器、网络PC、对等设备或其它常见的网络节点,并通常包括以上相关于计算机100所描述的许多或所有元件,尽管在图1中仅示出了存储器存储设备111。图1所描绘的逻辑连接包括局域网(LAN)112和广域网(WAN)113。这一联网环境常见于办公室、企业范围计算机网络、内联网和因特网。
当在LAN联网环境中使用时,计算机100通过网络接口或适配器114连接到局域网114。当在WAN联网环境中使用时,个人计算机100通常包括调制解调器115或用于通过如因特网等广域网113建立通信的其它装置。调制解调器115可以是内置或外置的,它通过串行端口接口106连接到系统总线130。在联网环境中,相对于个人计算机100所描绘的程序模块或其部分可以被储存在远程存储器存储设备中。
手写文档的示例
图2示出了根据本发明的一个说明性方面的包含诸如文本201、图表203和213、图形211以及表格205-209的各种类型的结构化手写对象的手写文档200。尽管手写文档200仅示出了手写成分,但是本发明的各实施例也支持可以用手写对象来注释的机器格式化的内容。
随着诸如图形输入板PC和电子白板等基于笔的设备的引入,已经有了由一整页或甚至是多页组成的在线文档或墨水笔记。典型的手写文档页面可包含诸如图2所示的不同类型的表格(例如,表格205-209)、图表(例如,图表203和213)、图形(例如,图形211)以及文本(例如,文本201)等不同的所绘实体。通常,对扫描的或在线文档中的手写表格的检测和识别比在印刷文档中更困难。例如,手写表格的符号和布局与具有直线结构,即完全由m列和n行组成的划线或未划线的水平表格相比通常更加不规则且复杂。表格可以被其它内容紧密地包围或甚至重叠,使得表格隔离会提出附加的问题。手写表格可包括不完整的边界框架(例如,如图6所示的表格603),并且可以带有绘图不规则性(例如,覆盖痕迹(over-traced)或串接的笔画,或通过如图25-31所示地歪斜表格)来绘出。此外,如将讨论的,所检测到的表格被进一步处理以确定相关联的表格结构。
用于检测手写表格的概述
图3示出了根据本发明的一个说明性方面的用于检测手写文档中的表格的算法的流程图300。图4示出了根据本发明的一个说明性方面的流程图400,它是图3所示的流程图300的延续。以下讨论提供了本发明的一个实施例的概述,并且将被更详细地讨论。
过程301从包含在手写文档中的绘图笔画中获得线段。线段的方向由过程303来确定和封闭(bin)。为了确定表格的方向(可能如图29所示是歪斜的),选择直方图峰值。对于表格,另一直方图峰值通常在离所选峰值大约90度处出现。
过程305确定候选表格的边界框架。从最低到最高逐个地测试直方图的峰值,以便搜索边界框架。如果边界框架是完整的,则过程305试图通过插入线段来完成边界框架。
在形成了边界框架之后,过程307通过从线条列表中收集该边界框架内的所有线段来形成准表格(候选表格),这些线段可以是框架线。过程311标准化该准表格以用实质上水平的线段替换近乎水平的线段,并用实质上垂直的线段替换近乎垂直的线段。后续过程通过确定一概率度量并确定该概率度量是否高于一预定阈值来确定该准表格是否是“真实的”表格(被确认的表格)。
过程313通过分析该准表格的交叉点的类型来识别该准表格的相关联结构。表格可能具有不同类型的交叉,包括如图19所示的T接点、十字交叉以及直角接点。
流程图400以逻辑连接315来继续流程图的逻辑流程。过程317找出每一表格单元格的内容并检查穿过框架线的笔画数以确定与该内容相关联的置信等级(度量)。如果该准表格具有太多穿过框架线的笔画,则该准表格因此可被拒绝成为被确认的表格。
过程319从先前确定的置信等级来确定线性分类器,以获得该候选表格是被确认的表格的总置信等级。过程321将该线性分类器与一预定阈值进行比较。如果该线性分类器小于或等于该预定阈值,则执行退出过程325。在这一情况下,可分析手写文档的一新区域以找到检测的表格。如果该线性分类器大于该预定阈值,则将该准表格(候选表格)认为是被确认的表格,并且可执行对被确认的表格的进一步处理(例如,如图30-31所示的编辑)。
图5示出了根据本发明的一个说明性方面的解析手写文档(在线文档或墨水笔记)501的装置500。该装置包括前导引擎503、表格检测器505和其余引擎507。
装置500支持高级解析器的流水线,其中整个在线文档501作为输入来处理。高级解析器的引擎509、511和513在表格检测引擎505之前,并且可帮助进行表格检测。在线文档501可包含诸如文本、图形、流程图和表格等各种语义实体。引擎509-513在表格检测之前被应用于在线文档501。首先,引擎509(书写解析器)进行基本的书写/绘图(W/D)分离并将书写笔画分组成三个等级:字、行和段。W/D分类引擎511随后基于特种特征来确定墨水笔记中的一笔画是书写还是绘图。在W/D分离之后,仅绘图笔画用于检测表格框架线。最后,未知绘图对象分组引擎513对附近的书写字和绘图笔画进行分组,使得该手写对象在空间上被分离。每一手写对象是由之后的引擎,例如其余引擎508检测到的潜在语义对象。尽管引擎509-513是在表格检测之前应用的,但是如果处理时间不是关键的,则表格检测器505可以不依赖于引擎509-513,因为表格检测器505可以检测线段并自己将线段分组成框架。W/D分离有助于缩小候选笔画的范围,而未知对象分组有助于框架分段。如将讨论的,表格单元格内容测试533有助于纠正来自书写解析器509的分组误差。表格检测器505能够检测墨水笔记中的表格,并提取所检测的表格的结构。此外,表格检测器505可以独立于引擎509-513来操作。然而,基于先前的解析结果来检测表格可以加速该过程并具有更高的准确度。
表格检测器505包括预处理器515、特征提取器517和分类器519,并向其余引擎507提供语义表格521。预处理器515包括从未知的绘图对象收集所有线段的线分段器523以及按照对应的空间位置将线段分组成不同区域的线块分段器525。
特征提取器517包括表格边界框架检测器527、表格框架标准化器529、表格结构识别器531以及表格单元格内容测试器533。表格边界框架检测器试图找出表格的边界框架。如果不存在完整的边界框架,则表格边界框架检测器进而检测虚拟边界框架。表格框架标准化器529标准化候选表格(准表格),使得近乎水平的线段被实质上水平的线段代替,而近乎垂直的线段被实质上垂直的线段代替。表格结构识别器531通过分析交叉点的类型来识别候选表格的结构。表格单元格内容测试器533找出每一表格单元格的内容并分析穿过候选表格的框架线的笔画。将讨论对表格边界框架检测器527、表格框架标准化器529、表格结构识别器531和表格单元格内容测试器533的进一步讨论。
分类器519包括分类模块535和语义表格生成器537。分类模块535从由框架提取器517提供的先前确定的置信等级中确定总置信等级(分类器)。如果分类模块确认候选表格(例如,分类器大于预定阈值),则生成器537从候选表格中生成语义表格。
在一个实施例中,表格检测器505可检测两种类型的表格:带有或不带有完整的边界框架。对于两种类型的表格,内部框架线应当是明确的。否则,所提取的结构信息可能是不正确的。当边界框架完整时,可检测到MicrosoftWord支持的任何表格结构。对于具有一行或一列的表格,可能需要附加语义信息,因为许多图示都包含类似的结构。
当边界框架不完整时,在存在其长度分别接近表格的宽度和高度的至少一条水平线和一条垂直线时检测到表格。此外,边界框架应当由0或2条平行线组成,并且至少一个表格单元格应包含书写笔画。
书写/绘图分类由W/D分类引擎511来提供。如果在装置500中没有配置引擎511,则表格检测器505测试在该表格单元格中是否有笔画。因此,准确度可能会略微降低。至少一个表格单元格应包含书写笔画以便区分该手写对象是表格还是仅仅是特定的图,例如,Go棋谱。
表格检测器505被设计成能稳健地处理以下情况:
1.表格可能具有各种类型的复杂结构,并且不需要对表格结构的先验知识。
2.表格不需要是水平的。一页上的多个表格可以是不同的方向。
3.框架线可以被覆盖痕迹、被串接、或在一个或多个笔画中结束。
4.表格在修改后仍能被检测到,只要修改的对象仍是表格。
5.如果在一页中有许多表格,则它们都能被检测到,即使它们是并排的导致表格边界模糊。
表格检测器505还提取结构信息,使得表格编辑(例如,旋转、缩放、移动整个表格、移动框架线、单元格内容的对齐)能得到支持。逻辑上,表格检测器505由以下处理阶段构成。在预处理阶段(例如,预处理器503),对绘图笔画进行分段,并用一线段序列来逼近,该线段序列被分组成空间上分开的框架。在检测阶段(例如,表格检测器505),找出边界框架。当没有真实的完整边界框架时,如有可能,形成虚拟边界框架。(例如,参考图6中的表格607,将虚拟线段623和625与虚拟边界框架607相结合)。边界框架连同该边界框架内的所有线段一起形成了准表格(候选表格)。其次,标准化该准表格。第三,识别表格结构,第四,测试表格单元格内容。在以上四个步骤中分别提取了四个表格特征。只要一特征超过其阈值,检测过程就可以终止。否则,应用组合了四个表格特性(度量)的最终线性分类器,并生成最终的语义表格。否则,没有检测到任何表格。
图6示出了根据本发明的一个说明性方面的可检测和不可检测表格的示例。根据以上讨论,表格601、607、609和613是可检测的,而表格603、605、611和615-619是不可检测的。
预处理
图7示出了根据本发明的一个说明性方面的检测到的线段701-723的示例。顶行(笔画701-711)示出了输入笔画。底行(笔画713-723)示出了在逼近之后的线段。输入笔画701示出了具有勾的笔画。输入笔画703示出了具有自我覆盖痕迹的笔画。输入笔画705示出了由两条线段逼近的笔画。输入笔画707示出了带有圆角的笔画。输入笔画709示出了由三条线段逼近的笔画。输入笔画711示出了由四条线段逼近的笔画。
笔画线分段从未知的绘图对象中收集所有线段。由于用户可能在单个笔画(例如,输入笔画705-711)中绘出若干框架线(诸如边界框架),因此不应当仅检查接近线段的那些笔画。线分段和逼近(对应于图3所示的过程301和图5所示的预处理器515)对笔画进行分段和逼近并从绘图笔画中收集作为候选框架线的所有线段。尽管用户可能在一笔画中绘出若干框架线,但是用户通常在绘出表格时不会在单个笔画中绘出多于四条框架线(诸如边界框架)。因此,可以仅考虑满足以下条件的绘图笔画:
1.可以由1到4条线段来逼近的,以及
2.相继线段之间的转角应当接近0度、或90度、或180度。
图8示出了根据本发明的一个说明性方面的笔画分段和逼近801-807。对于绘图笔画,首先通过计算在等式1(将更详细讨论)中表达的线性度特性来测试它是否接近线段。如果该线性度特性不对应于线段,则该笔画被分段并逼近。图8示出了笔画分段和逼近的过程。首先,应用多项式逼近算法来用相连的线段逼近每一绘图笔画,直到规定的误差容限(如由笔画801所示)。注意,应当执行去勾(de-hook),即,应当丢弃笔画末端因无意的手抖动而导致的勾(如由笔画803所示),使得相关联的噪声被移除。其次,选择具有最大曲率的三个点(对应于笔画801-807中的浓点),这些点将笔画分段成四个子笔画。对于线段数小于四的情况,选取所有的点。第三,根据两个端点的几何信息用线段来逼近子笔画。对于一个实施例,不使用最大平方误差拟合,因为拟合可能会消耗大量的计算。注意,线段可能不会越过曲率极值(如由笔画805所示)。
笔画逼近包括以下步骤:
·如果子笔画中的相连线段不是近乎平行的,则该笔画不能是矩形的一部分,并且转向下一绘图笔画。
·否则,子笔画中的近乎平行的线段(例如,图9所示的线段905-909)被合并成一新线段(例如,线段915)。该新线段通过要合并的第一条线段和最后一条线段的两个中点(对应于中点911和913)。该新线段的起始点和结束点是逼近线段的起始点和结束点(对应于图9所示的点901和903)分别在该新线段上的正交投影。
第四,合并或删除逼近线段。
1.如果相继线段的方向近乎相同,则将其合并为单个段。合并过程与第三步的相同。
2.如果一线段的方向与其前导先前和后续线段相反,则它可以是该线段的自我覆盖痕迹部分。因此删除它并且重新计算逼近线段。
3.如果线段太短并且其前导线段和后续线段接近正交,则删除它们,并且重新计算逼近线段(如由笔画807所示)。
4.如果剩余线段数大于1,则检查剩余线段是否与其前导线段和后续线段都接近正交。如果有四个线段,则还应当测试第一和最后一个段的正交性。如果否,则该线段必然不是矩形的一部分。
5.如果仅剩下一条线段或者剩余的线段通过了前一步中的测试,则将剩余线段添加到线条列表,该列表储存了所有可能的候选框架线。
线块分段
在线分段和逼近之后,所选择的笔画由其逼近线段来表示。在一页上可能有多个表格。为检测所有这些表格,将在前一步中获得的线段按照其空间位置分组成不同的区域。一区域内的线段被认为是一线块。对每一线块,其中的所有线段被储存在一线条列表中。然后构建一直方图以对围绕每一方向的线段的数目计数。该直方图中的每一峰值对于表格可以与离其大约90度的另一峰值相关联,这可能不是水平的。表格检测器检查每一峰值和相关联的分支以找出是否有表格。如果检查了一整个块,则表格检测器转向下一块。
检测边界框架
检测真实的完整边界框架
图10示出了根据本发明的一个说明性方面的用于检测表格边界框架的流程图1000。图10所示的过程试图找出表格的边界框架。如果不存在完整的边界框架,则该系统进而如由过程1007所示地检测虚拟边界框架。
首先,从与每一方向范围相关联的多个线段的直方图中,选择其方向接近或垂直于对应于一峰值的方向的线段。从最高到最低逐个测试直方图的峰值。应用旋转,使得线段在近乎水平或垂直的方向上。然后如由过程1001所执行地构建水平线条列表和垂直线条列表。
过程1003确定四条线段形成一边界框架的置信等级(PBF)。对PBF的确定将更详细地讨论。过程1005然后确定该置信等级是否大于一预定阈值。如果是,则过程1011收集边界框架内的所有线段并在过程1013中形成准表格。如果置信等级小于或等于预定阈值,则过程1007试图构造一虚拟边界框架。如果不可能,则该处理在过程1009中退出。
当需要处理覆盖痕迹和串接的框架线时,线条列表也储存作为某些可串接和近乎平行的原始线段的组合的所有合成线段。图11示出了根据本发明的一个说明性方面的合成框架线段1101-1105的示例。
测试两条水平线段和两条垂直线段(原始的或合成的)的所有可能组合以如下所述地从四个度量(线性度、相似度、矩形度和显著度)计算形成边界框架的可能性PBF。
线段的线性度f1
图12示出了根据本发明的一个说明性方面的线段的线性度度量。线性度度量f1描述了一线段(原始线段或合成线段)能多好地逼近由其表示的一个或多个笔画。如果该线段是原始的(线段1201),则该线段对应于它所逼近的笔画1207的线性度:
其中Bw和Bh是其主要方向通过最小平方来计算的笔画的歪斜边界矩形的宽度和高度,而L是该笔画的长度。注意,Bw/(Bh+Bw)测量了一笔画的平坦度,而Bw/L测量了该笔画的波动。
如果该线段是合成的(对应于线段1203和1205),则度量f1是组成笔画1209和1211的线性度与相继笔画之间的串接强度fcon的乘积:
其中fcon=1-θ·(A·p+B)-C·p·(1+|d|)2,其中(假设线段是近乎水平的):θ是两条线段(对应于线段1301和1303)之间的锐角(对应于图13所示的θ1309),p(对应于p 1307)是连接点之间的水平距离,而d(d 1305)在两条线段彼此交叉的情况下为0,否则是两条线段的端点之间的垂直距离。图13示出了根据本发明的一个说明性方面的用于确定两条线段的串接强度的各个因素。
A、B和C是根据经验确定的某些正参数。注意,如果两条线段在水平方向上重叠,则p为负。串接强度fcon在d、p和θ上是单调的,因此串接强度适合人们的直观。如果两条线被完美地串接,则值为“1”。
线段对的相似度fp
图14示出了根据本发明的一个说明性方面用于确定一对线段1401和1403的相似度的各因素。相似度度量fp示出了两条线段是否可以是对应于真实表格的底线和顶线(或左线和右线)的一对线段。相似度度量fp被定义为:
其中(假设线段近乎水平,如图14所示):θi∈(-π/4,π/4)是第i条线段的锐角,li是第i条线段的长度,而pj是线段的端点的从左到右的四个后续投影点。(等式3中包含的参数对应于图14所示的参数1405-1415)。用于矩形对象的一对线段的线段具有共同的特性,即,线段具有大致相等的长度和方向,并且必须对齐其中心。相似度度量fp反映了该共同特性。
可能边界框架的矩形度fr
图15示出了根据本发明的一个说明性方面的用于确定候选边界框架的矩形度度量的各因素。矩形度度量fr描述了四条线是矩形区域1501中的真实矩形1509的边框线的可能性。它由以下三个分量度量构成:
·fmin:四个方向(左、右、上、下)上的线段和边界框架之间的相对最小距离(如在矩形区域1501中示出的):
其中Δb 1510是边界框架的底线段的端点和底部之间的较小距离,而Δt 1511、Δ1 1512和Δr 1513如图15所示类似地定义。
·fangle:相继线段之间的四个锐角的平均值(如由矩形区域1503所示,例如,θ1是线段1517和1519之间的角):
·fvl:“有效”长度与“总”长度之比。“有效”长度是线段的长度和相继线段之间的部分的长度两者中的较小者,而“总”长度是线段的整体长度加上其端点与其相继线段之间的可能间隙(如由矩形区域1505所示的,例如,长度1521是线段1525的总长度,而长度1523是线段1525的有效长度):
(等式6)
矩形度度量fr是fmin、fangle和fv1的线性组合。它从形状、角度和长度的方面示出了四条线能多好地适合一矩形的四条边框线。
可能边界框架的显著度fs
图16示出了根据本发明的一个说明性方面的对候选边界框架的显著度的确定。显著度度量fs示出了一表格如何与其它外部笔画隔离。如果在可能的边界框架周围有许多笔画,则被该边界框架所包围的区域可能不是表格,并且显著度度量fs应减小。可能边界框架的灵敏框B2 1603和边界框B1 1601之间的区域,其中B2和B1是同心的,并且称为灵敏率的其尺寸之比大于1。该灵敏率是系统参数。显著度fs被定义为:
其中脏笔画(例如,笔画1605-1609)是在B1 1610外部且接触灵敏区域的笔画。
如上所述,四个度量fl、fp、fr和fs描述了边界框架的特性。如果这四个度量中的任一个低于其对应的阈值,则四条线段被拒绝,否则以上四个度量的线性组合形成边界框架的四条线段的置信度PBF。如果最大PBF超过一阈值,则可提取相应的四条线段以判定这些线段是否形成边界框架。
检测虚拟边界框架
图17示出了根据本发明的一个说明性方面的虚拟边界框架的形成。如果没有找到真实的完整边界框架,则装置500进而检测是否有不带完整边界框架的表格。表格检测器505从确定如由线段集1701所示的一组准长度正交线段开始。水平和垂直线条列表都从长到短进行排序。随后,表格检测器505交替地搜索水平线条列表和垂直线条列表,使得下一所选的线段与从其它列表中选择的所有线段相交,并且其长度和垂直(水平)位移都接近从同一列表中选择的先前的线段的长度和位移。如果找到一组相交的线段1703,则通过对相应线段(对应于线段1705-1711)的端点的线性回归获得虚拟边界框架(具有要么是水平要么是垂直的组成线)。最后,表格检测器505判定一线段是否属于该边界框架。(注意,一个实施例的表格检测器505被设计成检测具有0或2条平行边框线的表格)。如果找到边框线,例如底线1709,则调整该虚拟边界框架。在确定了虚拟边界框架之后,表格检测器505如对真实的完整边界框架那样继续。
准表格形成
形成准表格
在检测到真实的或虚拟的边界框架之后,然后通过从线条列表中收集在该边界框架内的所有线段(可以是框架线)来形成准表格。将该组线段称为“准表格”是因为该组线段是真实表格的候选,并且处理到此点处不能判定它是否真的是表格。
表格框架标准化
图18示出了根据本发明的一个说明性方面的表格框架的标准化。为了获得准表格1800的结构并简化后续计算,该过程标准化准表格1800,使得近乎水平或垂直的线段被实质上完全水平或垂直的线段来代替。(例如,对于标准化的准表格1850,线段1853代替了线段1851)。该过程还确定一垂直线段是否与一水平线段相交。以下讨论提供了对标准化度量Pnorm的标准化和计算的步骤,该度量测量了交叉的质量。假设一准表格具有m条水平线和n条垂直线,则计算所有m*n个交叉点,并记录关于两条线是否真正相交或能通过延长它们来彼此相交的信息。这可通过计算以下等式来获得:
P=(1-p)Pi1+pPi2 (等式8a)
Q=(1-q)Qj1+qQj2 (等式8b)
其中P是水平线,Pi1=[xi1,yi1]T和Pi2=[xi2,yi2]T分别是线P的起始点和结束点,而p是标量数量的参数。等式8b中的参数被类似地定义。
对P=Q求解以上等式,可得到p和q的值,从这些值中可获得两条线的交叉信息。对于每一(i,j),可以获得值pij和qij,并且因此获得两个度量:Pm× n和Qm×n,它们描述了准表格的交叉信息。以下步骤将标准化所述线和交叉点。
x(j)=(1-q(j))Qj1.x+q(j)Qj2.x (等式9a)
y(j)=(1-p(i))Pi1.y+p(i)Pi2.y (等式9b)
其中p(i)=(pi1+pi2+…+pin)/n(1≤i≤m)且q(j)=(q1j+q2j+…+qmj)/m(1≤j≤n)。因此,归一化之后的第i条线可以由分别作为起始点和结束点的两个新的点Ps(i)和Pe(i)来表示。
Ps(i).x=x(1) Ps(i).y=y(i) (等式10a)
Pe(i).x=x(n) Pe(i).y=y(i) (等式10b)
第j条垂直线可以被类似地表达。标准化了所有水平和垂直线之后,可计算标准化的交叉点。最后,调整具有m个水平和n个垂直交叉点的表格的几何信息。同时记录该交叉信息,即两条线是否真正相交。随后,可计算标准化度量Pnorm,该度量可由以下两个子度量的线性组合形成:交叉分量度量fint和有效框架线分量度量fvfl。
交叉分量度量fint测量交叉的质量。它被定义为“坏”交叉点的数量与所有交叉点的数量之比。“坏”交叉点(例如,交叉1803)是被判定为交叉点、但相应的两条线段并没有真正彼此交叉的点。
有效框架线分量度量fvfl测量表格框架的干净度。如果有许多笔画穿过框架线,则引擎将拒绝一候选表格。它被定义为无效线段的数量与所有线段的数量之比:
其中“无效”线段仅有一个交叉点(例如,线段1801)。无效线段和不与任何其它线段相交的线段被放弃,使得它们不会影响表格结构。以上两个分量度量被线性地组合以形成用于标准化准表格的标准化度量(置信等级)Pnorm。
表格结构识别
图19示出了根据本发明的一个说明性方面的表格结构识别。在标准化之后,获得所有线段的交叉信息或交叉关系。表格检测器505通过检查交叉点的类型来识别表格的结构。有三种类型的交叉点:十字交叉1901(对应于表格1906中的交叉点1907)、T接点交叉1903(对应于交叉点1909)以及直角交叉1905(对应于交叉点1911)。如果一交叉点不是边界框的四个角之一,则该交叉点只能是十字或T接点。图20示出了根据本发明的一个说明性方面的放弃与错误的交叉点2009和2021有关的线段。如果直角类型的交叉点不存在并且不是四个角的点之一,则表格检测器试图通过用以下方式检查与交叉点有关的线段来移除此交叉点:
·如果交叉线段是原始的,则表格检查器505放弃该线段,例如,对于准表格2001的错误的交叉点2009,放弃线段2005和2007。
·否则,该线段由若干线段组成。表格检测器505按照其与错误的交叉点2021的距离来放弃组成线段2011-2015,直到剩余的线段形成用于准表格2003的有效表格结构。
在放弃了某些线段之后,获得了准表格的结构。然后,根据其左上角的坐标从左到右然后从上到下对表格单元格排序。表格1906是单元格排序的一个示例。该步产生结构置信等级Pstr:
其中N错误交叉是直角类型的、但不是表格边界框架的四个角的点之一的错误的交叉点的数量,而N总交叉是所有交叉点的数量。
单元格内容的分析
图21示出了根据本发明的一个说明性方面的第i个单元格2101和第j个笔画2103的公共区域。在这一过程之前,表格检测器505尚未确定一准表格是否是真正的表格。如上所述,如果有太多的笔画穿过框架线,则表格检测器505将拒绝一表格。该过程找出每一单元格的内容以完成表格信息,并且还检查穿过框架线的笔画数以评估成为真正表格的置信度。单元格内容测试按照其在一对象的边界框内的公共区域的比例来检查每一单元格的边界框以及包含当前准表格的未知绘图对象中的所有对象(诸如段、行、字和笔画,在旋转之后)的边界框。这是从顶级到底级来完成的。即,如果一段被判定为在一单元格内,则测试停止。否则,继续测试线,依此类推。该过程可继续到笔画级。对于绘图笔画,如果未知绘图对象分组引擎也分层地对绘图笔画分层,则测试也是自顶向下的。该过程可以纠正来自先前的引擎的分组错误。例如,过度分组的段、行或字可被拆分成在不同单元格内或在表格外的更小的部分。这一步产生了内容输出的置信等级Pcon。它被定义为:
其中Ai,j c 2105是第i个单元格2101和第j个笔画2103的边界框的公共面积,Ai是第i个单元格的面积,Bj是第j个笔画的边界框的面积,μij是反映第j个笔画与第i个单元格的框架线的位置关系的参数,而Ncell和Nstroke是分别与单元格的框架线相交的单元格和笔画的数量。引入μij是出于这样的考虑:如果笔画在框架线上,则置信等级在其接近框架线的末端时应比在其接近中心时减少得更多,因为笔画通常是箭头的。如果一准表格具有虚拟边界框架并且任何单元格中都没有书写笔画,则该准表格立即被拒绝。
实际上,表格检测器505动态地计算特征以便处理某些复杂情况,诸如若干表格太靠近以致于无法将它们彼此分开,或者表格被修改了太多次数。例如,如果表格检测器505不能判定手写输入是对应于两个彼此靠近的表格还是仅一个大表格,则表格检测器505应当将这两种情况都认为是正确的。表格检测器505分别计算两种情况中的所有度量,并随后比较最终的置信等级以找到较高的那一个。当计算度量时,应用惩罚和鼓励(penalty and inspiring)机制,即,如果一线段在一种情况下可被认为是表格的底线而在另一种情况下可被认为是表格的顶线,则该度量值应被惩罚。
分类器的确定
图22示出了根据本发明的一个说明性方面的关于书写输入是否对应于确认表格的判决树2200。如上所述,确定四个度量PBF、Pnorm、Pstr和Pcon,它们各自反映了表格的特性。一个实施例可使用各种分类方案之一来得出结论。例如,表格检测器505使用线性地组合四个度量的线性分类器(例如,相关联的置信等级)。可以指定总置信度作为四个度量的线性组合:
Pfusion=W1PBF+W2Pnorm+W3Pstr+W4Pcon (等式15)
其中权重Wi(1≤i≤4)都是正值。采用表格检测器505,逐步地确定参数和阈值。参数和阈值首先根据经验来选择。参数和阈值被手动调整以近似地最小化表格检测结果误差。例如,一个人可处理20个测试页面并检查相应的结果。该过程可被重复多次。所使用的参数和阈值可能不是最优的,但是如将在以下解释的,自动调整可能是困难的。表格检测器505并不总是执行所有的度量比较(对应于步骤2201-2209)。如果对应的置信等级对于一相应步骤太低,则表格检测器505可立即终止并转向下一候选表格。如果总置信度Pfusion超过一阈值(对应于步骤2209),则表格检测器判定候选表格是真正的表格(对应于步骤2213),并输出语义表格。否则,没有检测到表格(对应于步骤2211),并且表格检测器505检查下一候选表格。
除了线性分类器之外,本发明的各实施例可利用其它类型的分类器。例如,非线性分类器可包括其中度量取除1之外的其它数次幂的项。此外,分类器可由支持矢量机或神经网络来提供。
解析树的结构
图23示出了根据本发明的一个说明性方面的没有表格检测的解析树2300的结构。包括手写文本的绘图对象2301被相继解析成段(段对象2303)、行(行对象2305)、字(字对象2307)和笔画(笔画对象2309-2311)。
图24示出了根据本发明的一个说明性方面的带有表格检测的解析树2400的结构。手写文档可包括不同类型的结构化对象,包括手写文本和表格。如同解析树2300一样,解析树2400将文本(绘图对象2403)相继解析成段、行、字和笔画。并且,解析树2400可解析表格(对应于表格2401)。因此,解析树2400将表格(对象2401)解析成框架(框架对象2405)和单元格(单元格对象2407)。此外,解析树2400可支持如将在以下讨论的其它类型的结构化对象(例如,绘图对象类型2409)。
实验结果
图25示出了根据本发明的一个说明性方面的手写文档的检测结果2500。如在图25中高亮的,表格2501、2503和2505已被表格检测器505正确检测到。图26示出了根据本发明的一个说明性方面的表格检测的示例。手写文档2600的表格2601在处理的文档2650中被正确地检测为如高亮的已检测表格2651。图27示出了根据本发明的一个说明性方面的表格检测的示例。手写文档2700的表格2701在处理的文档2750中被正确地检测为如高亮的已检测表格2751。此外,本发明的各实施例可检测文档内的多个手写表格。图28示出了根据本发明的一个说明性方面的检测多个表格2801-2807的示例2800。
测试数据集具有378个墨水笔记,这包含以英语书写的195个手写文档,以中文书写的84个手写文档,以法语书写的44个手写文档和以德语书写的55个书写文档。许多墨水笔记都是多页的。墨水笔记是从许多不同的人收集的,而对书写文档的风格没有任何限制。墨水笔记可包含文本、图形、图表、流程图、表格等等。表格可以随机地以任何大小和歪斜度来绘制。
由于所检测的结构化图形对象和实际的结构化图形对象之间的不同分组或不同结构,对表格检测的评估通常是困难的。分组差异涉及分量的不同分组。例如,当几个表格彼此太靠近时,这些表格可被检测为单个表格或多个表格,或甚至是几个表格加上几个非表格。结构差异涉及分量之间的不同关系。例如,用于一个表格的框架线集与该实际表格的框架线集相同,但是框架线之间的交叉关系不同,导致不同的表格。这些困难使得对所检测的表格和实际表格的正确对齐变为有挑战性的问题。因此,人类检查可能是唯一的手段。
表格检测之后的编辑
在提取了表格结构信息之后,可执行表格编辑,诸如旋转、缩放、移动整个表格、单元格内容的对齐、到字符的变换等等。墨水解析器演示系统(对应于装置500)的某些表格编辑示例在图29-32中示出。图29示出了根据本发明的一个说明性方面的手写文档2900中的歪斜的表格2901。图30示出了根据本发明的一个说明性方面的通过重新排列已处理文档3000的表格3001来编辑图29所示的歪斜的表格。图31示出了根据本发明的一个说明性方面的通过移动框架线3103-3105对歪斜的表格2901的进一步编辑以形成被处理文档3100的已编辑表格3101。
可编辑手写表格以便于用户查看。此外,手写表格的内容可被移植到软件应用程序以便将内容变换成另一结构化对象(例如,图32所示的图表3201)。图32示出了根据本发明的一个说明性方面的对图29-31所示的表格的变换以形成图表3201。
用于检测结构化手写对象的构架
图33示出了根据本发明的一个说明性方面的由对象检测构架检测到的结构化手写对象3300。
如上所述,本发明的实施例提供了能够从在线手写文档中提取自由风格的表格的稳健的表格检测系统。表格检测通常是具有挑战性的任务,因为手绘表格的划线和布局通常比印刷表格的划线和布局要不规则和复杂得多。本发明的各实施例可以被扩展并应用于其它结构化手写对象,诸如流程图、组织图表、条形图或饼图以及注释,它们具有可以没有歧义地定义的结构。例如,由于结构化图形对象的图元结构包括组成对象(例如,有向线、矩形以及圆圈,如对于结构图形对象3300所示的),因此结构化图形对象检测器可用对检测与表格检测器505有关的图元结构和逻辑结构的适当修改来检测结构化图形对象。线段可以用曲线段来概括。例如,圆圈可以从其中可获得弧形段的一个或多个笔画形成。
本发明的各实施例提供了一种用于检测结构化手写对象的构架。例如,可基于图5所示的装置500的检测装置支持以下特征(能力):
检测图元结构—结构化图形对象通常包括图元结构。例如,如上所述,表格包括诸如划线和边界框等组成对象。相关联的功能对应于先前对预处理和检测边界框架所讨论的功能。当检测图元结构时,可检查直方图(与具有相关联方向的段有关)中的峰值,在这些峰值中,段具有除水平或垂直方向之外的不同方向,例如,段可能具有用于三角形或菱形对象的对角方向。
从图元结构中检测逻辑结构—当检测逻辑结构时,确定组成对象之间的关系。例如,参考结构化手写对象3300,已知的规则可指示至少两条有向线应存在于矩形(可以表示具有多个存储器单元的存储器位置)和圆圈(可表示组合元素)之间。此外,本发明的各实施例可以通过用包括其它结构化对象类型(例如,如图24所示的绘图对象2409)扩展解析树2400来支持其它类型的结构化手写对象。相关联的功能对应于先前对准表格形成、表格结构识别和单元格内容分析所讨论的功能。
总体检测和分类—对结构化手写对象的检测通常如上所述是分层且过程性的。如果一总的置信等级(分类器)足够大,则检测到结构化图形对象。相关联的功能对应于先前对分类器确定所讨论的功能。
由于在结构化手写对象检测器中可以有许多参数和阈值,因此当前在具有每一页上密集的表格/非表格填充的特别设计的测试页上仅手动调整参数和阈值的一个子集,以便于对检测准确度和速度进行快速的人员检查。这些参数和阈值中的某一些可以对准确度和速度有显著影响。其余的参数和阈值被固定为估算值。只要阈值不是太大,最终分类器基本上就决定了检测准确度。此外,有可能例如使用遗传算法来开发一种自动化参数调整系统,以便自动找出满标度的最优参数和阈值,其中考虑了检测速度以便实现所需的性能目标。
本领域的技术人员可以理解,具有包含用于控制计算机系统的指令的相关联计算机可读介质的计算机系统可用于实现此处所公开的示例性实施例。计算机系统可包括至少一个计算机,诸如微处理器、数字信号处理器和相关联的外围电子电路等。
尽管以对结构特征和/或方法动作专用的语言描述了本主题,但是可以理解,所附权利要求书中所定义的主题不一定要限于以上所述的具体特征或动作。相反,上述具体特征和动作是作为实现权利要求书的示例形式而公开的。
Claims (20)
1.一种具有用于执行以下步骤的计算机可执行指令的计算机可读介质,所述步骤包括:
(a)从手写文档中确定一线条列表(301);
(b)从所述线条列表中获得一候选表格的边界框架(305);
(c)从所述边界框架和所述线条列表中识别所述候选表格的结构(313);以及
(d)从确定所述候选表格是否对应于一被确认的表格的分类器中确认所述候选表格(321)。
2.如权利要求1所述的计算机可读介质,其特征在于,还具有用于执行以下步骤的计算机可执行指令:
(e)标准化所述候选列表的手写线段,以用实质上水平的线段替换大致水平的线段,并用实质上垂直的线段替换大致垂直的线段(311)。
3.如权利要求1所述的计算机可读介质,其特征在于,还具有用于执行以下步骤的计算机可执行指令:
(e)确定所述被确认的表格的单元格的对应内容。
4.如权利要求1所述的计算机可读介质,其特征在于,还具有用于执行以下步骤的计算机可执行指令:
(e)对一笔画进行分段以用相连的线段来逼近所述笔画。
5.如权利要求1所述的计算机可读介质,其特征在于,所述分类器包括分类器分量的(2201-2209)的线性组合。
6.如权利要求1所述的计算机可读介质,其特征在于,还具有用于执行以下步骤的计算机可执行指令:
(b)(i)当不能获得完整的边界框架时检测虚拟边界框架(1007)。
7.如权利要求2所述的计算机可读介质,其特征在于,还具有用于执行以下步骤的计算机可执行指令:
(f)标准化对应于所述实质上水平的线段和所述实质上垂直的线段的交叉点。
8.如权利要求5所述的计算机可读介质,其特征在于,所述分类器分量之一包括标准化置信等级。
9.如权利要求1所述的计算机可读介质,其特征在于,还具有用于执行以下步骤的计算机可执行指令:
(c)(i)从交叉点类型中确定所述候选表格的结构。
10.如权利要求9所述的计算机可读介质,其特征在于,还具有用于执行以下步骤的计算机可执行指令:
(c)(ii)放弃对应于错误的交叉点的错误线段。
11.如权利要求5所述的计算机可读介质,其特征在于,所述分类器分量之一包括结构置信等级。
12.如权利要求5所述的计算机可读介质,其特征在于,所述分类器分量之一包括边界框架置信等级。
13.如权利要求12所述的计算机可读介质,其特征在于,所述边界框架置信等级还包括线性度子分量、相似度子分量、矩形度子分量和显著度子分量。
14.如权利要求5所述的计算机可读介质,其特征在于,还具有用于执行以下步骤的计算机可执行指令:
(e)确定包含在所述候选表格中的内容的内容置信等级,
所述分类器分量之一是所述内容置信等级。
15.如权利要求1所述的计算机可读介质,其特征在于,还具有用于执行以下步骤的计算机可执行指令:
(e)从命令输入中编辑所述被确认的表格。
16.如权利要求1所述的计算机可读介质,其特征在于,还具有用于执行以下步骤的计算机可执行指令:
(e)重复(a)-(c);以及
(f)从确定另一候选表格是否对应于另一被确认的表格的对应分类器来确认所述另一候选表格。
17.如权利要求1所述的计算机可读介质,其特征在于,还具有用于执行以下步骤的计算机可执行指令:
(e)从所述被确认的表格中生成语义表格。
18.如权利要求17所述的计算机可读介质,其特征在于,还具有用于执行以下步骤的计算机可执行指令:
(e)从所述语义表格中形成图形对象。
19.一种检测手写文档中的表格的表格检测器(500),所述表格检测器包括:
通过用相连的线段逼近绘图笔画来从所述手写文档的线条块中形成线条列表的预处理器(515);
特征提取器(517),用于确定候选表格的边界框架、从所述边界框架和线条列表中识别所述候选表格的结构、分析所述候选表格内的内容、以及确定与所述边界框架、所述结构和所述内容相关联的置信等级;以及
分类模块(519),用于从关于所述候选表格是否对应于一生效表格的置信等级中形成一分类器,并当所述分类器大于一预定阈值时输出用于所述被确认的表格的语义表格。
20.一种具有用于执行以下步骤的计算机可执行指令的计算机可读介质,所述步骤包括:
(a)从手写文档中确定线条列表(301);
(b)从所述线条列表中获得边界框架(305);
(c)从所述边界框架和所述线条列表中位于所述边界框架内部的线段中形成候选表格(307);
(d)通过用实质上水平的线段替换大致水平的线段,并用实质上垂直的线段替换大致垂直的线段来标准化所述候选表格(309);
(e)从所述候选表格的交叉类型中识别所述候选表格的结构(313);
(f)从笔画与所述候选表格的线段的交叉来分析所述候选表格的内容(317);
(g)确定提供关于所述候选表格是否为被确认的表格的置信等级的分类器;以及
(h)当所述分类器大于一预定阈值时输出一语义表格(321)。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US11/314,124 | 2005-12-21 | ||
US11/314,124 US7583841B2 (en) | 2005-12-21 | 2005-12-21 | Table detection in ink notes |
PCT/US2006/048208 WO2007075548A1 (en) | 2005-12-21 | 2006-12-18 | Table detection in ink notes |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101366020A true CN101366020A (zh) | 2009-02-11 |
CN101366020B CN101366020B (zh) | 2011-11-09 |
Family
ID=38173554
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2006800489026A Expired - Fee Related CN101366020B (zh) | 2005-12-21 | 2006-12-18 | 墨水笔记中的表格检测 |
Country Status (7)
Country | Link |
---|---|
US (1) | US7583841B2 (zh) |
EP (1) | EP1969489B1 (zh) |
KR (1) | KR20080086460A (zh) |
CN (1) | CN101366020B (zh) |
AT (1) | ATE491188T1 (zh) |
DE (1) | DE602006018788D1 (zh) |
WO (1) | WO2007075548A1 (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101944179A (zh) * | 2009-07-01 | 2011-01-12 | 佳能株式会社 | 图像处理装置和图像处理方法 |
CN103577817A (zh) * | 2012-07-24 | 2014-02-12 | 阿里巴巴集团控股有限公司 | 表单识别方法与装置 |
CN104424161A (zh) * | 2013-08-30 | 2015-03-18 | 株式会社东芝 | 手写文档处理装置,手写文档处理方法,和手写文档处理程序 |
CN104636117A (zh) * | 2013-11-12 | 2015-05-20 | 江苏奥博洋信息技术有限公司 | 一种表格图像的自动切分方法 |
CN104885095A (zh) * | 2012-08-17 | 2015-09-02 | 株式会社东芝 | 手写文档处理设备和方法 |
CN105678210A (zh) * | 2014-12-05 | 2016-06-15 | 株式会社东芝 | 检索设备和检索方法 |
WO2016192664A1 (zh) * | 2015-06-05 | 2016-12-08 | 夏普株式会社 | 手写表识别方法和设备 |
CN106649420A (zh) * | 2015-11-02 | 2017-05-10 | 富士施乐株式会社 | 图像处理设备和图像处理方法 |
CN111859874A (zh) * | 2019-04-17 | 2020-10-30 | 百度在线网络技术(北京)有限公司 | 表格生成方法及其系统、视频播放设备和计算机可读介质 |
Families Citing this family (33)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7664325B2 (en) * | 2005-12-21 | 2010-02-16 | Microsoft Corporation | Framework for detecting a structured handwritten object |
US7583841B2 (en) * | 2005-12-21 | 2009-09-01 | Microsoft Corporation | Table detection in ink notes |
JP4569622B2 (ja) * | 2007-12-18 | 2010-10-27 | 富士ゼロックス株式会社 | 画像処理装置及び画像処理プログラム |
US8634645B2 (en) * | 2008-03-28 | 2014-01-21 | Smart Technologies Ulc | Method and tool for recognizing a hand-drawn table |
US8600164B2 (en) * | 2008-03-28 | 2013-12-03 | Smart Technologies Ulc | Method and tool for recognizing a hand-drawn table |
US9202140B2 (en) * | 2008-09-05 | 2015-12-01 | Siemens Medical Solutions Usa, Inc. | Quotient appearance manifold mapping for image classification |
US8335981B2 (en) * | 2009-08-03 | 2012-12-18 | Business Objects Software Ltd. | Metadata creation |
CN102129546B (zh) * | 2010-01-15 | 2013-07-10 | 富士通株式会社 | 二值图像的识别方法和识别装置 |
US8433714B2 (en) | 2010-05-27 | 2013-04-30 | Business Objects Software Ltd. | Data cell cluster identification and table transformation |
JP5640645B2 (ja) * | 2010-10-26 | 2014-12-17 | 富士ゼロックス株式会社 | 画像処理装置及び画像処理プログラム |
JP5724341B2 (ja) * | 2010-12-06 | 2015-05-27 | 富士ゼロックス株式会社 | 画像処理装置及び画像処理プログラム |
CN102289322A (zh) * | 2011-08-25 | 2011-12-21 | 盛乐信息技术(上海)有限公司 | 手写笔迹处理方法及系统 |
JP5787843B2 (ja) * | 2012-08-10 | 2015-09-30 | 株式会社東芝 | 手書き描画装置、方法及びプログラム |
JP2015035150A (ja) * | 2013-08-09 | 2015-02-19 | 株式会社東芝 | 手書き文書処理装置、手書き文書処理方法及び手書き文書処理プログラム |
JP6202997B2 (ja) * | 2013-11-07 | 2017-09-27 | 株式会社東芝 | 電子機器、方法及びプログラム |
KR20160062565A (ko) * | 2014-11-25 | 2016-06-02 | 삼성전자주식회사 | 디바이스 및 디바이스의 필기 컨텐트 제공 방법 |
US20160162175A1 (en) * | 2014-12-05 | 2016-06-09 | Kabushiki Kaisha Toshiba | Electronic apparatus |
US10042539B2 (en) * | 2015-02-11 | 2018-08-07 | Adobe Systems Incorporated | Dynamic text control for mobile devices |
CN105739985B (zh) * | 2016-02-02 | 2018-11-20 | 锐达互动科技股份有限公司 | 导入选中的Excel表格到白板软件中的方法 |
CN105760353B (zh) * | 2016-02-02 | 2018-08-07 | 锐达互动科技股份有限公司 | 在白板软件中导入Excel表格且不改变单元格文本格式的方法 |
CN105760352B (zh) * | 2016-02-02 | 2018-07-20 | 锐达互动科技股份有限公司 | 导入选中的Excel表格行列排列方式到白板软件中的方法 |
US9898653B2 (en) * | 2016-05-25 | 2018-02-20 | Konica Minolta Laboratory U.S.A. Inc. | Method for determining width of lines in hand drawn table |
US9965678B2 (en) * | 2016-06-29 | 2018-05-08 | Konica Minolta Laboratory U.S.A., Inc. | Method for recognizing table and flowchart in document images |
US10410386B2 (en) * | 2017-09-15 | 2019-09-10 | Konica Minolta Laboratory U.S.A., Inc. | Table cell validation |
US10679049B2 (en) * | 2017-09-29 | 2020-06-09 | Konica Minolta Laboratory U.S.A., Inc. | Identifying hand drawn tables |
US11048867B2 (en) * | 2019-09-06 | 2021-06-29 | Wipro Limited | System and method for extracting tabular data from a document |
EP4032016A4 (en) | 2019-09-18 | 2023-10-25 | Tata Consultancy Services Limited | DEEP LEARNING BASED TABLE COVERAGE AND ASSOCIATED DATA EXTRACTION FROM SCANNED IMAGE DOCUMENTS |
KR20210073196A (ko) * | 2019-12-10 | 2021-06-18 | 삼성전자주식회사 | 필기 입력을 처리하는 방법 및 그 장치 |
CN113139370A (zh) * | 2020-01-16 | 2021-07-20 | 京东方科技集团股份有限公司 | 一种表格提取方法、装置及触控显示装置 |
CN111428700B (zh) * | 2020-06-10 | 2020-10-27 | 上海交通大学苏州人工智能研究院 | 表格识别方法、装置、电子设备、存储介质 |
US11010543B1 (en) * | 2020-08-11 | 2021-05-18 | Fmr Llc | Systems and methods for table extraction in documents |
WO2022182104A1 (ko) * | 2021-02-23 | 2022-09-01 | 네이버 주식회사 | 테이블 생성 방법 및 시스템, 그리고 테이블이 포함된 이미지 보정 방법 및 시스템 |
US11887393B2 (en) | 2021-03-02 | 2024-01-30 | Claritrics Inc. | End-to-end system for extracting tabular data present in electronic documents and method thereof |
Family Cites Families (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2930612B2 (ja) * | 1989-10-05 | 1999-08-03 | 株式会社リコー | 画像形成装置 |
US5701500A (en) * | 1992-06-02 | 1997-12-23 | Fuji Xerox Co., Ltd. | Document processor |
JPH06203165A (ja) * | 1993-01-07 | 1994-07-22 | Canon Inc | 画像情報処理方法及び装置 |
US5787414A (en) * | 1993-06-03 | 1998-07-28 | Kabushiki Kaisha Toshiba | Data retrieval system using secondary information of primary data to be retrieved as retrieval key |
US5513271A (en) | 1993-11-24 | 1996-04-30 | Xerox Corporation | Analyzing an image showing a proportioned parts graph |
US5544267A (en) | 1993-11-24 | 1996-08-06 | Xerox Corporation | Using a category to analyze an image showing a graphical representation |
US5392130A (en) * | 1993-11-24 | 1995-02-21 | Xerox Corporation | Analyzing an image showing a row/column representation |
US6104833A (en) * | 1996-01-09 | 2000-08-15 | Fujitsu Limited | Pattern recognizing apparatus and method |
US6108444A (en) * | 1997-09-29 | 2000-08-22 | Xerox Corporation | Method of grouping handwritten word segments in handwritten document images |
US6636631B2 (en) * | 1998-06-04 | 2003-10-21 | Matsushita Electric Industrial Co., Ltd. | Optical character reading method and system for a document with ruled lines and its application |
CN1173247C (zh) | 1999-01-13 | 2004-10-27 | 国际商业机器公司 | 具有文字分割用户接口的手写信息处理系统 |
JP4412762B2 (ja) * | 1999-05-31 | 2010-02-10 | 富士通株式会社 | 点線抽出方法、その装置及びその記録媒体 |
JP4159720B2 (ja) * | 2000-03-15 | 2008-10-01 | 株式会社リコー | 表認識方法と表認識装置と文字認識装置及び表認識プログラムを記録した記憶媒体 |
US6757870B1 (en) | 2000-03-22 | 2004-06-29 | Hewlett-Packard Development Company, L.P. | Automatic table detection method and system |
US7295708B2 (en) | 2003-09-24 | 2007-11-13 | Microsoft Corporation | System and method for detecting a list in ink input |
US7324691B2 (en) | 2003-09-24 | 2008-01-29 | Microsoft Corporation | System and method for shape recognition of hand-drawn objects |
US8849031B2 (en) * | 2005-10-20 | 2014-09-30 | Xerox Corporation | Document analysis systems and methods |
US7664325B2 (en) * | 2005-12-21 | 2010-02-16 | Microsoft Corporation | Framework for detecting a structured handwritten object |
US7583841B2 (en) * | 2005-12-21 | 2009-09-01 | Microsoft Corporation | Table detection in ink notes |
-
2005
- 2005-12-21 US US11/314,124 patent/US7583841B2/en not_active Expired - Fee Related
-
2006
- 2006-12-18 AT AT06845707T patent/ATE491188T1/de not_active IP Right Cessation
- 2006-12-18 DE DE602006018788T patent/DE602006018788D1/de active Active
- 2006-12-18 KR KR1020087014962A patent/KR20080086460A/ko not_active Application Discontinuation
- 2006-12-18 EP EP06845707A patent/EP1969489B1/en not_active Not-in-force
- 2006-12-18 CN CN2006800489026A patent/CN101366020B/zh not_active Expired - Fee Related
- 2006-12-18 WO PCT/US2006/048208 patent/WO2007075548A1/en active Application Filing
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101944179A (zh) * | 2009-07-01 | 2011-01-12 | 佳能株式会社 | 图像处理装置和图像处理方法 |
CN101944179B (zh) * | 2009-07-01 | 2013-07-17 | 佳能株式会社 | 图像处理装置和图像处理方法 |
CN103577817A (zh) * | 2012-07-24 | 2014-02-12 | 阿里巴巴集团控股有限公司 | 表单识别方法与装置 |
CN103577817B (zh) * | 2012-07-24 | 2017-03-01 | 阿里巴巴集团控股有限公司 | 表单识别方法与装置 |
CN104885095A (zh) * | 2012-08-17 | 2015-09-02 | 株式会社东芝 | 手写文档处理设备和方法 |
CN104885095B (zh) * | 2012-08-17 | 2018-09-25 | 株式会社东芝 | 手写文档处理设备和方法 |
CN104424161A (zh) * | 2013-08-30 | 2015-03-18 | 株式会社东芝 | 手写文档处理装置,手写文档处理方法,和手写文档处理程序 |
CN104636117A (zh) * | 2013-11-12 | 2015-05-20 | 江苏奥博洋信息技术有限公司 | 一种表格图像的自动切分方法 |
CN105678210A (zh) * | 2014-12-05 | 2016-06-15 | 株式会社东芝 | 检索设备和检索方法 |
WO2016192664A1 (zh) * | 2015-06-05 | 2016-12-08 | 夏普株式会社 | 手写表识别方法和设备 |
CN106649420A (zh) * | 2015-11-02 | 2017-05-10 | 富士施乐株式会社 | 图像处理设备和图像处理方法 |
CN111859874A (zh) * | 2019-04-17 | 2020-10-30 | 百度在线网络技术(北京)有限公司 | 表格生成方法及其系统、视频播放设备和计算机可读介质 |
Also Published As
Publication number | Publication date |
---|---|
WO2007075548A1 (en) | 2007-07-05 |
EP1969489B1 (en) | 2010-12-08 |
CN101366020B (zh) | 2011-11-09 |
KR20080086460A (ko) | 2008-09-25 |
EP1969489A4 (en) | 2009-04-01 |
ATE491188T1 (de) | 2010-12-15 |
DE602006018788D1 (de) | 2011-01-20 |
US20070140565A1 (en) | 2007-06-21 |
EP1969489A1 (en) | 2008-09-17 |
US7583841B2 (en) | 2009-09-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101366020B (zh) | 墨水笔记中的表格检测 | |
Zheng et al. | Global table extractor (gte): A framework for joint table identification and cell structure recognition using visual context | |
US7664325B2 (en) | Framework for detecting a structured handwritten object | |
US7142728B2 (en) | Method and system for extracting information from a document | |
US7054871B2 (en) | Method for identifying and using table structures | |
US5926565A (en) | Computer method for processing records with images and multiple fonts | |
US20100303356A1 (en) | Method for processing optical character recognition (ocr) data, wherein the output comprises visually impaired character images | |
US20070168382A1 (en) | Document analysis system for integration of paper records into a searchable electronic database | |
CN1175699A (zh) | 光学扫描表单识别及更正方法 | |
Bulacu et al. | Layout analysis of handwritten historical documents for searching the archive of the cabinet of the dutch queen | |
Al-Maadeed | Text‐Dependent Writer Identification for Arabic Handwriting | |
WO2007070010A1 (en) | Improvements in electronic document analysis | |
Tombre et al. | Pattern recognition methods for querying and browsing technical documentation | |
Almohri et al. | A real-time DSP-based optical character recognition system for isolated Arabic characters using the TI TMS320C6416T | |
Lin et al. | Multilingual corpus construction based on printed and handwritten character separation | |
JPH09161013A (ja) | 文字読取り方法及び住所読取り方法 | |
Sulaiman et al. | A study on information extraction method of engineering drawing tables | |
Zaghloul et al. | Recognition of Hindi (Arabic) handwritten numerals | |
Rakshit et al. | Recognition of handwritten textual annotations using tesseract open source ocr engine for information just in time (ijit) | |
Lin et al. | Table detection in online ink notes | |
Tan et al. | Multiscale region projection method to discriminate between printed and handwritten text on registration forms | |
Lladós et al. | Word spotting in archive documents using shape contexts | |
Mazzei et al. | Extraction and classification of handwritten annotations | |
Yadav et al. | Result extraction from searchable PDF | |
CN115759020A (zh) | 表格信息提取方法、表格模板配置方法和电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
C17 | Cessation of patent right | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20111109 Termination date: 20121218 |