CN104094282A - 无边框表格检测引擎 - Google Patents

无边框表格检测引擎 Download PDF

Info

Publication number
CN104094282A
CN104094282A CN201280067898.3A CN201280067898A CN104094282A CN 104094282 A CN104094282 A CN 104094282A CN 201280067898 A CN201280067898 A CN 201280067898A CN 104094282 A CN104094282 A CN 104094282A
Authority
CN
China
Prior art keywords
line separator
text
rimless
clear area
group
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201280067898.3A
Other languages
English (en)
Other versions
CN104094282B (zh
Inventor
M·拉斯科维克
N·波兹达里维克
M·舍舒姆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Technology Licensing LLC
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of CN104094282A publication Critical patent/CN104094282A/zh
Application granted granted Critical
Publication of CN104094282B publication Critical patent/CN104094282B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/177Editing, e.g. inserting or deleting of tables; using ruled lines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Document Processing Apparatus (AREA)
  • Character Input (AREA)
  • Machine Translation (AREA)

Abstract

用于标识出现在从固定格式文档提取的数据中的无边框表格的无边框表格检测引擎和相关联的方法。由于缺乏可视的边框,对无边框表格的可信赖的自动化检测是困难的。无边框表格检测引擎使用空白区而非内容来检测无边框表格候选。通过应用试探法分析,无边框表格检测引擎丢弃具有缺乏表格的足够特征且不可能是有效的无边框表格的布局的无边框表格候选。

Description

无边框表格检测引擎
背景
流格式文档和固定格式文档被广泛使用并且具有不同的目的。流格式文档使用复杂逻辑格式化结构(如章节、段落、列以及表格)来组织文档。结果,流格式文档提供了灵活性且易于修改,使得它们适用于涉及被频繁更新或受到显著编辑的文档的任务。相反,固定格式文档使用基本物理布局元素(如文本串、路径、以及图像)来组织文档以保留原始外观。固定格式文档提供一致且精确的格式布局,使得它们适用于涉及不被频繁或大量变更或其中需要统一性的文档的任务。这样的任务的示例包括文档归档、高质量再现、以及用于广告发布和打印的源文件。固定格式文档通常从流格式源文档中创建。固定格式文档还包括物理(即,纸质)文档的数字再现(例如,扫描和照片)。
在其中需要编辑固定格式文档但流格式源文档不可用的情况下,固定格式文档必须被转换成流格式文档。转换涉及解析该固定格式文档并将来自该固定格式文档的基本物理布局元素变换成在流格式文档中使用的更复杂的逻辑元素。面对复杂元素(如无边框表格)的现有文档转换器诉诸于被设计成保留布局(例如,文本框、行间距、以及字符间距)的视觉保真度的基本技术,以输出文档的可流动性为代价。结果是需要用户执行大量手动重构来获得真正有用的流格式文档的受限流格式文档。本发明正是对于这些和其他考虑事项而做出的。
发明内容
提供以下发明内容以便以简化形式介绍将在以下详细描述中进一步描述的一些概念。本发明内容并不旨在标识所要求保护主题的关键特征或必要特征,也不旨在用于限制所要求保护主题的范围。
无边框表格检测引擎的一个实施例通过使用空白区(whitespace)检测来选择无边框表格候选来开始。无边框表格检测引擎将其边界框相互垂直交叠的空白区编组到空白区编组中。当且仅当两个空白区的边界框垂直交叠的情况下,在两个空白区之间存在边(即,空白区被连接)。所有连接的空白区组成一个空白区编组。
一旦检测到空白区编组,就从每个空白区编组中创建表格候选。每个空白区编组内最顶部的空白区被标识,并且它的顶部边框定义表格候选的顶部边框。类似地,每个空白区编组内最底部的空白区被标识,并且它的底部边框定义表格候选的底部边框。接下来,表格候选的顶部边框和底部边框之间的所有文本被收集并被分配到表格候选。在收集文本后,无边框表格检测引擎建立表格候选的边界框。边界框是包括所有被分配到表格候选的文本的最小矩形。
在检测到初始的表格候选集合后,无边框表格检测引擎分开地分析每个表格候选。第一步是筛选表格候选并丢弃低可能性的表格候选。一旦表格候选已经被初始地筛选,无边框表格检测引擎就开始重构每个剩余表格候选的单元格布局的过程。确定单元格布局的过程开始于使用采用较小的最小空白区宽度阈值的空白区检测来确定列分隔符(column separator)候选。尽管对于检测可能的列分隔符是有用的,但是较窄的最小空白区宽度阈值允许在列分隔符不应该存在的地方(即,表格单元格内)检测空白区。因此,在列分隔符检测期间被定位的空白区根据高度来被筛选并在适当的时候被丢弃。
一旦空白区已经被丢弃,无边框表格检测引擎就在每个剩余空白区的右边框处创建列分隔符。接着,无边框表格检测引擎为每个不在顶部边框或底部边框上的列分隔符端点添加行分隔符。当可用时,无边框表格检测引擎使用从原生固定格式文档中获得的信息(诸如文本的呈现次序)来进一步分割无边框表格候选的行。
在完成单元格布局重构时,无边框表格检测引擎将文本分配到个体单元格。文本分配过程通过筛选每个表格候选并丢弃可能是在无边框表格候选之前或之后的元素的一部分的文本来开始。最后,仅具有一个列的表格候选被丢弃。剩余的表格候选准备好用于在例如串行化期间重构为表格。
一个或多个实施例的细节在附图和以下描述中阐明。通过阅读下面的具体实施例并参考相关联的附图,其他特征和优点将变得显而易见。要理解的是下面的具体实施例仅仅是说明性的,而不是对所要求保护的发明的限制。
附图简述
通过参考下面的具体实施方式、所附的权利要求书和附图,进一步的特征、各方面和益处将变得更好理解,其中各元素不会缩放以更清晰地示出细节,在若干视图中,相同的附图标记指示相同的元素,并且其中:
图1是示出包括无边框表格检测引擎的系统的一个实施例的框图;
图2是示出文档处理器的一个实施例的操作流程的框图;
图3A-3B是由无边框表格检测引擎执行的无边框表格检测方法的一个实施例的流程图;
图4A-4C示出了出现在页面上的两个空白区之间的各种位置上的关系;
图5示出指示可能的无边框表格候选的位置的示例性空白区编组;
图6示出了具有在初始空白区检测期间标识的空白区的一示例性无边框表格候选;
图7图形地示出了在空白区检测过程期间检测到的空白区;
图8是在无边框表格检测引擎的一个实施例中使用的minWhitespaceHeight(最小空白区高度)/tableHeight(表格高度)比率的图;
图9示出收集了在表格之下的标题以及表格之上的段落的一部分的无边框表格候选;
图10示出了执行无边框表格检测引擎的一个实施例的平板计算设备;
图11是适合于实现无边框表格检测引擎的实施例的示例性计算设备的简化框图;
图12A示出了执行无边框表格检测引擎的一个实施例的移动计算设备的一个实施例;
图12B是适合于实现无边框表格检测引擎的实施例的示例性移动计算设备的简化框图;以及
图13是适合于实现无边框表格检测引擎的实施例的示例性分布式计算系统的简化框图。
详细描述
在此描述了并在所附附图中示出了用于标识出现在从固定格式文档提取的数据中的无边框表格的无边框表格检测引擎和相关联的方法。由于缺乏可视的边框,对无边框表格的可信赖的自动化检测是困难的。无边框表格检测引擎使用空白区而非内容来检测无边框表格候选。通过应用试探法分析,无边框表格检测引擎丢弃具有缺乏表格的足够特征且不可能是有效的无边框表格的布局的无边框表格候选。
图1解说了纳入无边框表格检测引擎100的系统。在所示实施例中,无边框表格检测引擎100作为在计算设备104上执行的文档转换器102的一部分来操作。文档转换器102使用解析器110、文档处理器112以及串行化器114将固定格式文档106转换成流格式文档108。解析器110从固定格式文档106中提取数据。从固定格式文档提取的数据被写入可由文档处理器112和串行化器114访问的数据存储116。文档处理器112使用一个或多个检测和/或重构引擎(例如,本发明的无边框表格检测引擎100)分析该数据并将其转换成可流动元素。最后,串行化器114将可流动元素写成可流动文档格式(例如,文字处理格式)。
图2更详细地示出了文档处理器112的操作流程的一个实施例。文档处理器112包括可任选的光学字符识别(OCR)引擎202、布局分析引擎204以及语义分析引擎206。数据存储116中包含的数据包括物理布局对象208和逻辑布局对象210。在一些实施例中,物理布局对象208和逻辑布局对象210被分层安排在编组的树类阵列中(即,数据对象)。在各实施例中,页面是物理布局对象208的顶级编组,而章节是逻辑布局对象210的顶级编组。从固定格式文档106中提取的数据一般被存储为由固定格式文档106中的包含页面来组织的物理布局对象208。从固定格式文档获得的基本物理布局对象包括文本串、图像以及路径。文本串是页面内容流中的指定在显示固定格式文档时字符的绘制位置的文本元素。图像是储存在固定格式文档106中的光栅图像(即,图片)。路径描述了诸如用于构建矢量图的线、曲线(例如,三次贝塞尔曲线)以及文本轮廓等元素。逻辑数据对象包括诸如章节、段落、列和表格等的可流动元素。
处理开始的位置依赖于被解析的固定格式文档106的类型。从流格式源文档直接创建的原生固定格式文档106a包含基本物理布局元素中的一些或全部。一般而言,从原生固定格式文档106a提取的数据可供文档转换器立即使用;但在一些情况下,微小的重新格式化或其他微小处理器被应用以组织或标准化该数据。相反,通过对物理文档进行数字图像化(例如,扫描或拍照)而创建的基于图像的固定格式文档106b中的所有信息被存储为不具有附加数据(即,没有文本串或路径)的一系列页面图像。在这种情况下,可任选的光学字符识别引擎202分析每一页面图像并创建对应的物理布局对象。一旦物理布局对象208可用,布局分析引擎204就确定固定格式文档的布局并用新信息来丰富数据存储(例如,添加、移除以及更新物理布局对象)。在布局分析完成之后,语义分析引擎206用从对物理布局对象和/或逻辑布局对象的分析中获得的语义信息来丰富数据存储。
图3A-3B示出由无边框表格检测引擎100执行的无边框表格检测方法的一个实施例。无边框表格检测方法300通过使用对来自固定格式文档的页面的数据执行的空白区检测311来标识310无边框表格候选来开始。初始空白区检测被用于寻找几何上位于同一行、但是(基于所选最小空白区宽度阈值)隔得太远以至语义上不属于同一编组(例如,同一句子)的文本。因此,每个空白区是无边框表格可能存在并包括在所涉及空白区左边和/或右边的文本的指示。在初始空白区检测中使用的最小空白区宽度阈值被选择来最小化对表格区域的假肯定的数量。在一个实施例中,空白区检测过程定位位于文本串之间(即,垂直交叠)的空白区。包括多于两个的列或经合并的单元格的单个表格将包括多个空白区。无边框表格检测引擎100将其边界框相互垂直交叠的空白区编组312到空白区编组中。
图4A-4C示出了在页面上两个空白区400a、400b之间的各种位置上的关系。图4A是第一空白区400a和第二空白区400b之间垂直交叠(即,至少部分水平对齐)402的示例。垂直交叠指示两个空白区400a、400b的至少某些部分水平地对齐。图4B是第一空白区400a和第二空白区400b之间水平交叠(即,至少部分垂直对齐)404的示例。图4C是第一空白区400a和第二空白区400b之间的相交406的示例。相交指示两个空白区400a、400b的至少某些部分水平地且垂直地对齐。基于垂直交叠,图4A和4C中的空白区指示页面上可能包括无边框表格候选的区域。然而,图4C中的空白区被丢弃,因为水平交叠指示没有文本出现在空白区之间。最终空白区编组可被表示为图上的节点。页面上的每个空白区是图中的一个节点。当且仅当两个空白区的边界框垂直地交叠的情况下,在两个节点之间存在边(即,节点被连接)。所有连接的空白区组成一个空白区编组。
图5示出指示可能的无边框表格候选的位置的示例性空白区编组500。空白区编组500包括多个连接的空白区502。空白区编组内最顶部的空白区被标识,并且顶部边定义无边框表格候选的顶部边框504。类似地,空白区编组内最底部的空白区被标识,并且底部边定义表格候选的底部边框506。接下来,顶部边框和底部边框之间的所有文本被收集313并被分配到无边框表格候选。图6示出了示例性无边框表格候选600,其显示在空白区检测期间标识的两个空白区602以及对应的顶部边框504和底部边框506。在收集空白区的顶部和底部边框之间的文本后,无边框表格检测引擎100创建314无边框表格候选的边界框604。在各个实施例中,边界框604是包括被分配到无边框表格候选600的所有文本的最小矩形;然而,在其他实施例中,边界框的尺寸可以变化。
在检测到初始的表格候选集合后,无边框表格检测引擎100分开地分析每个表格候选。第一步是筛选320表格候选并丢弃低可能性的表格候选。被用于丢弃表格候选的一个测试是计算321相对于表格候选的总区域的表格候选的被文本覆盖的区域。不像具有边框的表格,无边框表格仅包括内容(例如,文本或图像),并且无边框表格的内容确定单元格布局。由此,无边框表格不可能将具有少的文本并覆盖大的区域。如果文本覆盖百分比低于所选阈值,则表格候选被丢弃。另一被用于丢弃表格候选的测试是检查实际上是标了项目符号或数字的列表的表格候选。对于无边框表格检测引擎而言,标了项目符号/数字的列表看上去是由垂直空白区隔开的项目符号或数字列以及文本或其他内容列。由于标了项目符号/数字的列表和无边框表格之间结构上的相似性,标了项目符号/数字的列表可被标识为无边框表格候选。因此,应用列表检测允许无边框表格检测引擎100丢弃322匹配标了项目符号/数字的列表的结构的无边框表格候选。
一旦表格候选已经被初始地筛选,无边框表格检测引擎100就开始重构330每个剩余表格候选的单元格布局的过程。重构过程开始于使用更小的最小空白区宽度阈值来对表格候选执行331第二空白区检测以检测可能对应于分栏符(column break)的更窄的空白区。尽管对于检测可能的列分隔符(columnseparator)是有用的,但是窄的最小空白区宽度阈值允许在列分隔符不应该存在的地方(即,表格单元格内)检测空白区。在无边框表格的情况下,单元格布局通常是非常规则的,具有类似网格的结构和少量的经合并的单元格。鉴于此,列之间的大部分空白区跨越无边框表格的整个高度或至少跨无边框表格的很大部分。在一个实施例中,空白区高度的阈值取决于表格的高度和平均文本高度。图8图示了使用以下函数计算的最小空白区高度(minWhitespaceHeight)/表格高度(tableHeight)比:
其中,因子是常量。如从图中看出的,随着表格高度增大,minWhitespaceHeight(最小空白区高度)/tableHeight(表格高度)比下降。因此,所检测的空白区基于高度被筛选并在适当的时候被丢弃。
一旦不满足高度阈值的空白区已经被丢弃332,无边框表格检测引擎100就创建列分隔符。图7图形地示出了在使用较小的最小空白区宽度阈值进行空白区检测过程期间检测到的空白区702和由无边框表格检测引擎100创建的列分隔符704。列分隔符704被置于333无边框表格候选600中的每个空白区702的右边框处。为了完成单元格布局,无边框表格检测引擎100创建行分隔符。为了实现有效的单元格布局,每个列分隔符的每个端点应当位于行分隔符、表格候选顶部边框或表格候选底部边框上。无边框表格检测引擎100为不在顶部边框或底部边框334上的每个列分隔符端点添加行分隔符。在所选列分隔符端点处开始,无边框表格检测引擎100绘制延伸到左边遇到的第一个列分隔符(包括表格候选左边框)以及延伸到右边遇到的(或左/右表格边框)第一个列分隔符(包括表格候选左边框)的水平线。
一些原生固定格式文档包括允许无边框表格检测引擎100进一步分割无边框表格候选的行的信息,诸如文本的呈现次序。在表格中,单元格的呈现次序是从左到右、从上到下,这意味着文本在一行中的呈现次序小于文本在所有接下来行中的呈现次序。当这样的信息可用时,无边框表格检测引擎100绘制335从左边框到右边框的连续文本行之间的行分隔符,并检查以下不等式:
max(呈现次序)(X)|X∈行分隔符以上的文本)
<min(呈现次序(Y)|Y∈行分隔符以下的文本)
如果不等式不保持为真,则行分隔符被丢弃。当基于呈现次序的行分隔符与在列分隔符检测期间创建的行分隔符重叠时,在列分隔符期间生成的行分隔符被丢弃以支持跨越表格候选的整个宽度的基于呈现次序的行分隔符。
在完成单元格布局重构时,完成340无边框表格的布局。图9示出了包括表格候选边框604、列分隔符704和行分隔符902的最终单元格布局900的示例。首先,无边框表格检测引擎100将文本分配341到个体单元格。无边框表格检测引擎100将文本分配到个体单元格。在没有定义的边框的帮助下,无边框表格检测引擎100使用的空白区检测潜在地捕捉在无边框表格候选之上和之下的实际上不是无边框表格的一部分的内容。例如,如果在表格之前的段落的最后一行或在表格候选之后的标题(heading)容适在第一或最后一列内,则它可被收集。图9显示了分配到第一行的第一单元格906a的先前段落的一部分以及分配到最后一行的第一单元格906b的标题。因此,文本分配过程筛选342每个表格候选并丢弃这样的文本。更为确切地,无边框表格检测引擎100从顶部开始分析表格候选的行并在只要行中的第一单元格或最后单元格包括文本时丢弃该行。一旦遇到在多于一个的单元格中包括文本的行,这个分析就结束。同样的方法从底部开始用于底部表格行。尽管筛选过程潜在地可能从表格中移除某些有效行,但是在这个方式中出错提供了更好的用户体验,因为没有段落被错误地分割,而当在无效行不被移除时会出现这种情况。最终,只有一个列的无边框表格候选被丢弃343,因为在无边框表格内的这样的内容将按照与表格外部的常规内容相同的方式被重构。这时,剩余的无边框表格候选准备好用于在例如串行化期间重构为可流动表格。
在此描述的无边框表格检测引擎以及相关联的无边框表格检测方法有用于检测具有对应于固定格式文档内无边框表格的结构的内容,从而允许当固定格式文档被转换成流格式文档时内容被重构为可流动表格。尽管已在结合在计算机上的操作系统上运行的应用程序执行的程序模块的一般上下文中描述本发明,但本领域的技术人员将认识到,本发明也可结合其他程序模块实现。一般而言,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、组件、数据结构和其他类型的结构。
本文描述的实施例和功能可通过多种计算系统来操作,包括但不限于台式计算机系统、有线和无线计算系统、移动计算系统(如移动电话、上网本、图形输入板或平板型计算机、笔记本计算机、和膝上型计算机)、手持设备、多处理器系统、基于微处理器或可编程消费电子产品、小型计算机、以及大型计算机。图10示出了执行无边框表格检测引擎100的实施例的示例性平板计算设备1000。此外,本文所述的实施例和功能可在分布式系统上操作(如基于云的计算系统),其中应用功能、存储器、数据存储和检索、以及各种处理功能可在诸如因特网或内联网之类的分布式计算网络上彼此远程地操作。各种类型的用户界面和信息可经板载计算设备显示器或经与一个或多个计算设备相关联的远程显示单元被显示。例如,各种类型的用户界面和信息可在墙壁表面上被显示和交互,各种类型的用户界面和信息被投射在墙壁表面上。与可用于实施本发明的各实施例的许多计算系统的交互包括:键击输入、触摸屏输入、语音或其他音频输入、姿势输入(其中相关联的计算设备配备有用于捕捉和解释用于控制计算设备的功能的用户姿势的检测(如相机)功能)等。图11到13以及相关描述提供了其中可实施本发明的各实施例的各种操作环境的讨论。然而,关于图11到13所示出和讨论的设备和系统是用于示例的目的,而非对可被用于实施本文所述的本发明的各实施例的大量计算设备配置的限制。
图11是示出可用来实施本发明的各实施例的计算设备1100的示例物理组件(即硬件)的框图。下面描述的计算设备组件可适用于上述的计算设备。在基本配置中,计算设备1100可包括至少一个处理单元1102和系统存储器1104。取决于计算设备的配置和类型,系统存储器1104可包括,但不限于,易失性存储器(例如,随机存取存储器)、非易失性存储器(例如,只读存储器)、闪存、或这些存储器的任何组合。系统存储器1104可包括操作系统1105和适于运行诸如无边框表格检测引擎100、解析器110、文档处理器112以及串行化器114等软件应用1120的一个或多个程序模块1106。操作系统1105例如可适合于控制计算设备1100的操作。此外,本发明的各实施例可以结合图形库、其他操作系统、或任何其他应用程序来实践,且不限于任何特定应用程序或系统。该基本配置在图11中由虚线1108内的那些组件示出。计算设备1100可具有附加特征或功能。例如,计算设备1100还可包括附加数据存储设备(可移动和/或不可移动),诸如,例如磁盘、光盘或磁带。这些附加存储在图11中由可移动存储设备1109和不可移动存储设备1110示出。
如上所述,可在系统存储器1104中存储多个程序模块和数据文件。当在处理单元1102上执行时,诸如无边框表格检测引擎100、解析器110、文档处理器112以及串行化器114等程序模块1106可以执行包括例如无边框表格检测方法300的各阶段中的一个或多个阶段等过程。上述过程是一示例,且处理单元1102可执行其他过程。根据本发明的实施例可使用的其他程序模块可包括电子邮件和联系人应用、字处理应用、电子表格应用、数据库应用、幻灯片演示应用、绘图或计算机辅助应用等。
此外,本发明的各实施例可在包括分立电子元件的电路、包含逻辑门的封装或集成电子芯片、利用微处理器的电路、或在包含电子元件或微处理器的单个芯片上实现。例如,可以通过片上系统(SOC)来实施本发明的各实施例,其中,可以将图11中示出的每个或许多组件集成到单个集成电路上。这样的SOC设备可包括一个或多个处理单元、图形单元、通信单元、系统虚拟化单元以及各种应用功能,所有这些都被集成到(或烧录到摂)芯片基板上作为单个集成电路。当通过SOC操作时,在此所述的关于无边框表格检测引擎100、解析器110、文档处理器112以及串行化器114的功能可以通过在单个集成电路(芯片)上与计算设备1100的其它组件集成在一起的专用逻辑来操作。本发明的各实施例还可以使用能够执行诸如,例如,AND(与)、OR(或)和NOT(非)等逻辑运算的其他技术来实践,包括但不限于,机械、光学、流体和量子技术。另外,本发明的各实施例可以在通用计算机或任何其他电路或系统中实现。
计算设备1100可具有一个或多个输入设备1112,如键盘、鼠标、笔、语音输入设备、触摸输入设备等等。也可包括输出设备1114,如显示器、扬声器、打印机等等。上述设备是示例且可以使用其他设备。计算设备1100还可包括允许与其他计算设备1118进行通信的一个或多个通信连接1116。合适的通信连接1116的示例包括但不限于RF发射机、接收机和/或收发机电路;通用串行总线(USB)、并行或串行端口、以及适用于与适用的计算机可读介质一起使用的其他连接。
例如,本发明的各实施方式可被实现为计算机进程(方法)、计算系统或诸如计算机程序产品或计算机可读介质等制品。计算机程序产品可以是计算机系统可读并编码了用于执行计算机进程的指令的计算机程序的计算机存储介质。
如此处所使用的术语计算机可读介质可包括计算机存储介质和通信介质。计算机存储介质可包括以用于存储诸如计算机可读指令、数据结构、程序模块、或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。系统存储器1104、可移动存储设备1109和不可移动存储设备1110都是计算机存储介质(即,存储器存储)的示例。计算机存储介质可以包括,但不限于,RAM、ROM、电可擦除只读存储器(EEPROM)、闪存或其它存储器技术、CD-ROM、数字多功能盘(DVD)或其它光存储、磁带盒、磁带、磁盘存储或其它磁性存储设备、或可用于存储信息且可以由计算机设备1100访问的任何其它介质。任何这样的计算机存储介质都可以是计算设备1100的一部分。
通信介质由诸如载波或其他传输机制等已调制数据信号中的计算机可读指令、数据结构、程序模块或其他数据来体现,并包括任何信息传递介质。术语“已调制数据信号”可以描述以对该信号中的信息进行编码的方式设定或者改变其一个或多个特征的信号。作为示例而非限制,通信介质包括诸如有线网络或直接线连接等有线介质,以及诸如声学、射频(RF)、红外线和其他无线介质等无线介质。
图12A和12B示出可用来实施本发明的各实施例的移动计算设备1200,例如移动电话、智能电话、平板个人计算机、膝上型计算机等。参考图12A,示出了用于实现各实施例的示例性移动计算设备1200。在一基本配置中,移动计算设备1200是具有输入元件和输出元件两者的手持式计算机。移动计算设备1200通常包括显示器1205以及允许用户将信息输入到移动计算设备1200中的一个或多个输入按钮1210。移动计算设备1200的显示器1205也可充当输入设备(如触摸屏显示器)。如果包括,则可任选的侧输入元件1215允许进一步的用户输入。侧输入元件1215可以是旋转开关、按钮、或任何其他类型的手动输入元件。在替代实施例中,移动计算设备1200可结合更多或更少的输入元件。例如,在某些实施例中,显示器1205可以不是触摸屏。在又一替代实施例中,移动计算设备1200是诸如蜂窝电话之类的便携式电话系统。移动计算设备1200还可包括可选的小键盘1235。可选的小键盘1235可以是物理小键盘或者在触摸屏显示器上生成的“软”小键盘。在各种实施例中,输出元件包括用于示出图形用户界面(GUI)的显示器1205、可视指示器1220(如发光二极管)、和/或音频换能器1225(如扬声器)。在某些实施例中,移动计算设备1200结合振动换能器来向用户提供触觉反馈。在又一实施例中,移动计算设备1200结合诸如音频输入(如传声器插孔)、音频输出(如耳机插孔)、以及视频输出(如HDMI端口)之类的输入和/或输出端口,用于将信号发送到外部设备或从外部设备接收信号。
图12B是示出移动计算设备的一个实施例的架构的框图。即,移动计算设备1200可结合系统(即架构)1202以实现某些实施例。在一个实施例中,系统1202被实现为能够运行一个或多个应用(如浏览器、电子邮件、日历、联系人管理器、消息收发客户端、游戏、以及媒体客户端/播放器)的智能电话摂。在某些实施例中,系统1202被集成为计算设备,诸如集成的个人数字助理(PDA)和无线电话。
一个或多个应用程序1266可被加载到存储器1262中并在操作系统1264上或与操作系统1264相关联地运行。应用程序的示例包括电话拨号程序、电子邮件程序、个人信息管理(PIM)程序、文字处理程序、电子表格程序、因特网浏览器程序、消息通信程序等等。系统1202还包括存储器1262内的非易失性存储区1268。非易失性存储区1268可被用于存储在系统1202断电时不会丢失的持久信息。应用程序1266可使用信息并将信息存储在非易失性存储区1268中,如电子邮件应用使用的电子邮件或其他消息等。同步应用(未示出)也驻留于系统1202上且被编程为与驻留在主机计算机上的对应的同步应用交互,以保持非易失性存储区1268中存储的信息与主机计算机处存储的相应信息同步。如应理解的,其他应用可被加载到存储器1262中并在移动计算设备1200上运行,包括此处所述的无边框表格检测引擎100、解析器110、文档处理器112以及串行化器114。
系统1202具有可被实现为一个或多个电池的电源1270。电源1270还可包括外部功率源,如补充电池或对电池充电的AC适配器或加电对接托架。
系统1202还可包括执行发射和接收无线电频率通信的功能的无线电1272。无线电1272通过通信运营商或服务供应商方便了系统1202与“外部世界”之间的无线连接。来往无线电1272的传输是在操作系统1264的控制下进行的。换言之,无线电1272接收的通信可通过操作系统1266传播到应用程序1264,反之亦然。
无线电1272允许系统1202例如通过网络与其他计算设备通信。无线电1272是通信介质的一个示例。通信介质通常由诸如载波或其他传输机制之类的已调制数据信号中的计算机可读指令、数据结构、程序模块、或其他数据来体现,并且包括任何信息传送介质。术语“已调制数据信号”是指使得以在信号中编码信息的方式来设定或改变其一个或多个特征的信号。作为示例而非限制,通信介质包括诸如有线网络或直接线连接之类的有线介质,以及诸如声学、RF、红外及其他无线介质之类的无线介质。如此处所使用的术语计算机可读介质摂包括存储介质和通信介质两者。
系统1202的该实施例使用可用于提供可视通知的可视指示器1220和/或通过音频换能器1225来产生音频通知的音频接口1274来提供通知。在所示实施例中,可视指示器1220是发光二极管(LED),而音频换能器1225是扬声器。这些设备可直接耦合到电源1270,使得当被激活时,即使为了节省电池功率而可能关闭处理器1260和其他组件,它们也保留一段由通知机制指示的保持通电时间。LED可被编程为无限地保持通电,直到用户采取动作指示该设备的通电状态。音频接口1274用于向用户提供听觉信号并从用户接收听觉信号。例如,除了被耦合到音频换能器1225之外,音频接口1274还可被耦合到话筒来接收可听输入,例如便于电话通话。根据各本发明的各实施例,话筒也可充当音频传感器来便于对通知的控制,如下文将描述的。系统1202可进一步包括允许板载相机1230的操作来记录静止图像、视频流等的视频接口1276。
实现系统1200的移动计算设备1202可具有附加特征或功能。例如,移动计算设备1200还可包括附加数据存储设备(可移动和/或不可移动),例如磁盘、光盘或磁带。这种附加存储设备在图12B中用非易失性存储区1268示出。计算机存储介质可包括以用于存储诸如计算机可读指令、数据结构、程序模块、或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。
移动计算设备1200生成或捕捉的且经系统1202存储的数据/信息可如上所述本地存储在移动计算设备1200上,或数据可被存储在可由设备通过无线电1272或通过移动计算设备1200和与移动计算设备1200相关联的一分开的计算设备之间的有线连接访问的任何数量的存储介质上,该计算设备如例如因特网之类的分布式计算网络中的服务器计算机。如应理解的,此类数据/信息可经移动计算设备1200、经无线电1272或经分布式计算网络来被访问。类似地,这些数据/信息可根据已知的数据/信息传送和存储手段来容易地在计算设备之间传送以供存储和使用,这些手段包括电子邮件和协作数据/信息共享系统。
图13示出了用于向一个或多个客户机设备提供无边框表格检测引擎100、解析器110、文档处理器112以及串行化器114的系统的体系结构的一个实施例,如上所述。无边框表格检测引擎100、解析器110、文档处理器112以及串行化器114所开发的、与其交互的或与其相关联地编辑的内容可被存储在不同的通信信道或其他存储类型中。例如,各种文档可使用目录服务1322、web门户1324、邮箱服务1326、即时消息收发存储1328或社交网站1330来存储。如本文所描述的,无边框表格检测引擎100、解析器110、文档处理器112以及串行化器114可以使用这些类型的系统中的任一个来启用数据利用。服务器1320可以向客户机提供无边框表格检测引擎100、解析器110、文档处理器112以及串行化器114。作为一个示例,服务器1320可以是通过web提供无边框表格检测引擎100、解析器110、文档处理器112以及串行化器114的web服务器。服务器1320可以通过网络1315在web上向客户机提供无边框表格检测引擎100、解析器110、文档处理器112以及串行化器114。作为示例,客户机计算设备1318可被实现为计算设备1100并被具体化在个人计算机1318a、平板计算设备1318b和/或移动计算设备1318c(如智能电话)中。客户机计算设备1318的这些实施例中的任一个可从存储1316获得内容。在各种实施例中,用于在构成本发明的计算设备之间进行通信的网络的类型包括但不限于互联网、内联网、广域网(WAN)、局域网(LAN)、以及虚拟专用网络(VPN)。在本申请中,网络包括企业网络和客户端计算设备用来访问企业网络的网络(即客户端网络)。在一个实施例中,客户端网络是企业网络的一部分。在另一实施例中,客户端网络是通过外部可用的接入点(如网关、远程访问协议、或公共或专用互联网地址)来访问企业网络的一分开的网络。
本申请中提供的一个或多个实施例的描述和说明不旨在以任何方式限制或约束如权利要求所要求保护的发明范围。本申请中提供的实施例、示例和细节被认为是足以传达所有权,且使得他人能够制作并使用所要求保护的发明的最佳模式。所要求保护的发明不应被理解为限制于本申请中所提供的任何实施例、示例或细节。不管是以组合的方式还是分开的方式示出和描述,各种特征(结构上的和方法逻辑上的)旨在被选择性地包括或忽略,以产生具有特定的特征集的实施例。在被提供本申请的描述和说明的情况下,本领域的技术人员能够想象到落在所要求保护的发明的更宽泛方面以及本申请中所具体化的一般发明概念的精神内的替代实施例并不背离该更宽泛的范围。

Claims (20)

1.一种用于检测包括在从固定格式文档中解析的数据中的无边框表格的无边框表格检测方法,所述方法包括以下步骤:
将具有相互垂直交叠的空白区编组到具有顶部边框和底部边框的空白区编组中;
将位于所述空白区编组中顶部边框和底部边框之间的文本收集为所收集的文本;
创建定位在表格候选内检测到的每个空白区的右边处的列分隔符,所述表格候选包括所述所收集的文本并具有上边框、下边框、左边框和右边框,每个所述列分隔符定义一对端点;
创建第一组行分隔符,所述第一组行分隔符包括位于所选所述端点处以形成多个个体单元格的行分隔符;以及
将所收集的文本分配到所述多个个体单元格中对应的一个。
2.如权利要求1所述的无边框表格检测方法,其特征在于,在所述表格候选内检测到的每个所述空白区具有超过对应于所述表格候选的高度的一大部分的阈值高度的高度。
3.如权利要求1所述的无边框表格检测方法,其特征在于,所述阈值高度因变于所述表格候选的高度和所述所收集的文本的平均高度来变化。
4.如权利要求1所述的无边框表格检测方法,其特征在于,所述创建第一组行分隔符的步骤进一步包括以下步骤:
绘制一水平线,所述水平线从不位于所述上边框或所述下边框上的所述每个所述端点向左延伸直到所述水平线遇到另一所述列分隔符或所述左边框;以及
绘制一水平线,所述水平线从不位于所述上边框或所述下边框上的所述每个所述端点向右延伸直到所述水平线遇到另一所述列分隔符或所述右边框。
5.如权利要求1所述的无边框表格检测方法,其特征在于,还包括以下步骤:
当呈现次序信息从所述固定格式文档中可用时基于从所述固定格式文档获得的呈现次序来创建所述表格候选中连续文本行之间的第二组行分隔符;
当所述第二组行分隔符中的所述行分隔符以上的所述所收集的文本的最大垂直位置或呈现次序大于所述行分隔符以下的所述所收集的文本的最小垂直位置或呈现次序时,从所述第二组行分隔符中丢弃所述行分隔符;以及
当所述第一组行分隔符中的第一所述行分隔符与所述第二组行分隔符中的第二所述行分隔符共线时,从所述第一组行分隔符中丢弃所述第一所述行分隔符。
6.如权利要求1所述的无边框表格检测方法,其特征在于,还包括以下步骤:
计算对应于所述表格候选的被所述所收集的文本覆盖的区域的文本覆盖百分比;以及
如果所述文本覆盖百分比少于所选文本覆盖阈值,则丢弃所述表格候选。
7.如权利要求1所述的无边框表格检测方法,其特征在于,还包括以下步骤:
检测所述表格候选内的标了项目符号和/或数字的列表;以及
如果所述表格候选仅包括单个所述标了项目符号和/或数字的列表,则丢弃所述表格候选。
8.如权利要求1所述的无边框表格检测方法,其特征在于,由所述行分隔符定义的每个行具有第一单元格和最后单元格,所述方法进一步包括丢弃其中所述所收集的文本仅被分配到该行的所述第一单元格或所述最后单元格的行的步骤。
9.如权利要求1所述的无边框表格检测方法,其特征在于,进一步包括丢弃仅包括单个列的表格的步骤。
10.一种用于检测固定格式文档中出现的无边框表格的系统,所述系统包括能用于执行以下操作的无边框表格检测引擎应用:
使用第一最小空白区宽度阈值来检测页面上的空白区;
将具有相互垂直交叠的所述空白区编组到具有顶部边框和底部边框的空白区编组中;
将位于所述空白区编组的顶部边框和底部边框之间的文本收集为所收集的文本;
创建所述所收集的文本周围的边界框以形成表格候选,所述边界框具有上边框、下边框、左边框和右边框;
使用第二最小空白区宽度阈值来检测所述表格候选内的空白区,所述第二最小空白区宽度阈值小于所述第一最小空白区宽度阈值;
创建定位在所述表格候选内每个所述空白区的右边处的列分隔符,每个所述列分隔符定义一对端点;
创建第一组行分隔符,所述第一组行分隔符包括位于每个不位于所述边界框的所述上边框或所述边界框的所述下边框上的所述端点处的行分隔符以形成多个个体单元格;以及
将所收集的文本分配到所述多个个体单元格中对应的一个,其中由所述行分隔符定义的每个行具有第一单元格和最后单元格。
11.如权利要求10所述的系统,其特征在于,所述无边框表格检测引擎应用能用于从所述表格候选内检测到的空白区中创建列分隔符,所述空白区具有超过对应于所述表格候选的高度的一大部分的可变阈值高度并且因变于所述表格候选的高度和所述所收集的文本的平均高度来变化的高度。
12.如权利要求10所述的系统,其特征在于,所述无边框表格检测引擎应用能用于绘制一水平线,所述水平线向不位于所述边界框的所述上边框或所述边界框的所述下边框上的每个所述端点的每条边延伸直到所述水平线遇到在所述端点的每条边上的另一所述列分隔符。
13.如权利要求10所述的系统,其特征在于,所述无边框表格检测引擎应用能用于:
当呈现次序信息从所述固定格式文档中可用时基于从所述固定格式文档获得的所述呈现次序信息来创建所述表格候选中连续文本行之间的第二组行分隔符;
当所述第二组行分隔符中的所述行分隔符以上的所述所收集的文本的最大垂直位置或呈现次序大于所述行分隔符以下的所述所收集的文本的最小垂直位置或呈现次序时,从所述第二组行分隔符中丢弃所述行分隔符;以及
当所述第一组行分隔符中的第一所述行分隔符与所述第二组行分隔符中的第二所述行分隔符共线时,从所述第一组行分隔符中丢弃所述第一所述行分隔符。
14.如权利要求10所述的系统,其特征在于,所述无边框表格检测引擎应用能用于在对应于所述表格候选的被所述所收集的文本覆盖的区域的文本覆盖百分比小于所选文本覆盖阈值的情况下丢弃所述表格候选。
15.如权利要求10所述的系统,其特征在于,进一步包括创建定位垂直位置的行分隔符以形成包括多个个体单元格的单元格布局的步骤,垂直位置从由以下构成的组中选择:不位于所述边界框的所述上边框或所述边界框的所述下边框上的每个所述端点以及使用从固定格式文档获得的呈现次序信息来确定的所述表格候选内的连续文本行。
16.如权利要求10所述的系统,其特征在于,所述无边框表格检测引擎应用能用于丢弃其中所述所收集的文本仅被分配到该行的所述第一单元格或所述最后单元格的行。
17.一种包含计算机可执行指令的计算机可读介质,所述计算机可执行指令在被计算机执行时执行一种在将固定格式文档转换成流格式文档时检测无边框表格的方法,所述方法包括下述步骤:
使用第一最小空白区宽度阈值来检测页面上的空白区;
将具有相互垂直交叠的所述空白区编组到具有顶部边框和底部边框的空白区编组中;
将位于所述空白区编组的顶部边框和底部边框之间的文本收集为所收集的文本;
创建所述所收集的文本周围的边界框以形成表格候选,所述边界框具有上边框、下边框、左边框和右边框;
使用第二最小空白区宽度阈值来检测所述表格候选内的空白区,所述第二最小空白区宽度阈值小于所述第一最小空白区宽度阈值;
创建定位在所述表格候选内每个所述空白区的右边处的列分隔符,每个所述列分隔符定义一对端点;
绘制一水平线,所述水平线从不位于所述边界框的所述上边框或所述边界框的所述下边框上的所述每个所述端点向左延伸直到所述水平线遇到另一所述列分隔符或所述左边框并且从不位于所述边界框的所述上边框或所述边界框的所述下边框上的所述每个所述端点向右延伸直到所述水平线遇到另一所述列分隔符或所述右边框以形成第一组行分隔符;以及
将所收集的文本分配到所述多个个体单元格中对应的一个,其中由所述行分隔符定义的每个行具有第一单元格和最后单元格。
18.如权利要求17所述的计算机可读介质,其特征在于,所述方法进一步包括以下步骤:
当呈现次序信息从所述固定格式文档中可用时基于从所述固定格式文档获得的所述呈现次序信息来创建所述表格候选中连续文本行之间的第二组行分隔符;
当所述第二组行分隔符中的所述行分隔符以上的所述所收集的文本的最大垂直位置或呈现次序大于所述行分隔符以下的所述所收集的文本的最小垂直位置或呈现次序时,从所述第二组行分隔符中丢弃所述行分隔符;以及
当所述第一组行分隔符中的第一所述行分隔符与所述第二组行分隔符中的第二所述行分隔符共线时,从所述第一组行分隔符中丢弃所述第一所述行分隔符。
19.如权利要求17所述的计算机可读介质,其特征在于,所述方法还包括在对应于所述表格候选的被所述所收集的文本覆盖的区域的文本覆盖百分比小于所选文本覆盖阈值的情况下丢弃所述表格候选的步骤。
20.如权利要求17所述的计算机可读介质,其特征在于,所述方法进一步包括丢弃其中所述所收集的文本仅被分配到该行的所述第一单元格或所述最后单元格的行的步骤。
CN201280067898.3A 2012-01-23 2012-01-23 无边框表格检测引擎 Active CN104094282B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/EP2012/000289 WO2013110289A1 (en) 2012-01-23 2012-01-23 Borderless table detection engine

Publications (2)

Publication Number Publication Date
CN104094282A true CN104094282A (zh) 2014-10-08
CN104094282B CN104094282B (zh) 2017-11-21

Family

ID=48803220

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201280067898.3A Active CN104094282B (zh) 2012-01-23 2012-01-23 无边框表格检测引擎

Country Status (6)

Country Link
US (1) US9990347B2 (zh)
EP (1) EP2807608B1 (zh)
JP (1) JP5952428B2 (zh)
KR (1) KR101872564B1 (zh)
CN (1) CN104094282B (zh)
WO (1) WO2013110289A1 (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108446264A (zh) * 2018-03-26 2018-08-24 阿博茨德(北京)科技有限公司 Pdf文档中的表格矢量解析方法及装置
CN109284495A (zh) * 2018-11-03 2019-01-29 上海犀语科技有限公司 一种对文本进行无表格线切表的方法及装置
CN109635268A (zh) * 2018-12-29 2019-04-16 南京吾道知信信息技术有限公司 Pdf文件中表格信息的提取方法
CN110532834A (zh) * 2018-05-24 2019-12-03 北京庖丁科技有限公司 基于富文本格式文档的表格提取方法、装置、设备和介质
CN112380812A (zh) * 2020-10-09 2021-02-19 北京中科凡语科技有限公司 Pdf不完整框线表格提取方法、装置、设备及存储介质
CN112906695A (zh) * 2021-04-14 2021-06-04 数库(上海)科技有限公司 适配多类ocr识别接口的表格识别方法及相关设备

Families Citing this family (46)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9032283B2 (en) * 2008-09-29 2015-05-12 Apple Inc. Rendering common cell formatting for adjacent cells
US8942489B2 (en) 2012-01-23 2015-01-27 Microsoft Corporation Vector graphics classification engine
US10025979B2 (en) * 2012-01-23 2018-07-17 Microsoft Technology Licensing, Llc Paragraph property detection and style reconstruction engine
WO2014005609A1 (en) 2012-07-06 2014-01-09 Microsoft Corporation Paragraph alignment detection and region-based section reconstruction
US9953008B2 (en) 2013-01-18 2018-04-24 Microsoft Technology Licensing, Llc Grouping fixed format document elements to preserve graphical data semantics after reflow by manipulating a bounding box vertically and horizontally
US9251413B2 (en) * 2013-06-14 2016-02-02 Lexmark International Technology, SA Methods for automatic structured extraction of data in OCR documents having tabular data
CN105518667B (zh) * 2014-06-30 2019-06-18 微软技术许可有限责任公司 理解供搜索的表格的方法、系统和计算机存储介质
CN104123270B (zh) * 2014-07-29 2018-03-06 广东能龙教育股份有限公司 一种基于内容的逆向表格布局方法
US9513671B2 (en) 2014-08-01 2016-12-06 Microsoft Technology Licensing, Llc Peripheral retention device
US10191986B2 (en) 2014-08-11 2019-01-29 Microsoft Technology Licensing, Llc Web resource compatibility with web applications
US9705637B2 (en) 2014-08-19 2017-07-11 Microsoft Technology Licensing, Llc Guard band utilization for wireless data communication
US9524429B2 (en) 2014-08-21 2016-12-20 Microsoft Technology Licensing, Llc Enhanced interpretation of character arrangements
US9805483B2 (en) 2014-08-21 2017-10-31 Microsoft Technology Licensing, Llc Enhanced recognition of charted data
US9397723B2 (en) 2014-08-26 2016-07-19 Microsoft Technology Licensing, Llc Spread spectrum wireless over non-contiguous channels
US9424048B2 (en) 2014-09-15 2016-08-23 Microsoft Technology Licensing, Llc Inductive peripheral retention device
US20160139783A1 (en) * 2014-11-13 2016-05-19 Microsoft Technology Licensing, Llc Detecting sidebar in document
US9984471B2 (en) * 2016-07-26 2018-05-29 Intuit Inc. Label and field identification without optical character recognition (OCR)
WO2018175686A1 (en) * 2017-03-22 2018-09-27 Drilling Info, Inc. Extracting data from electronic documents
US10339212B2 (en) * 2017-08-14 2019-07-02 Adobe Inc. Detecting the bounds of borderless tables in fixed-format structured documents using machine learning
US11775814B1 (en) 2019-07-31 2023-10-03 Automation Anywhere, Inc. Automated detection of controls in computer applications with region based detectors
US11650970B2 (en) 2018-03-09 2023-05-16 International Business Machines Corporation Extracting structure and semantics from tabular data
CN108470021B (zh) * 2018-03-26 2022-06-03 阿博茨德(北京)科技有限公司 Pdf文档中表格的定位方法及装置
US10878195B2 (en) * 2018-05-03 2020-12-29 Microsoft Technology Licensing, Llc Automated extraction of unstructured tables and semantic information from arbitrary documents
US10691936B2 (en) * 2018-06-29 2020-06-23 Konica Minolta Laboratory U.S.A., Inc. Column inferencer based on generated border pieces and column borders
US11200413B2 (en) 2018-07-31 2021-12-14 International Business Machines Corporation Table recognition in portable document format documents
US11243803B2 (en) 2019-04-30 2022-02-08 Automation Anywhere, Inc. Platform agnostic robotic process automation
US11113095B2 (en) 2019-04-30 2021-09-07 Automation Anywhere, Inc. Robotic process automation system with separate platform, bot and command class loaders
US11301224B1 (en) 2019-04-30 2022-04-12 Automation Anywhere, Inc. Robotic process automation system with a command action logic independent execution environment
US11614731B2 (en) 2019-04-30 2023-03-28 Automation Anywhere, Inc. Zero footprint robotic process automation system
JP7379876B2 (ja) * 2019-06-17 2023-11-15 株式会社リコー 文字認識装置、文書ファイル生成方法、文書ファイル生成プログラム
US11113518B2 (en) 2019-06-28 2021-09-07 Eygs Llp Apparatus and methods for extracting data from lineless tables using Delaunay triangulation and excess edge removal
US11915465B2 (en) 2019-08-21 2024-02-27 Eygs Llp Apparatus and methods for converting lineless tables into lined tables using generative adversarial networks
US11048867B2 (en) * 2019-09-06 2021-06-29 Wipro Limited System and method for extracting tabular data from a document
US11256913B2 (en) * 2019-10-10 2022-02-22 Adobe Inc. Asides detection in documents
US11481304B1 (en) 2019-12-22 2022-10-25 Automation Anywhere, Inc. User action generated process discovery
US11348353B2 (en) 2020-01-31 2022-05-31 Automation Anywhere, Inc. Document spatial layout feature extraction to simplify template classification
US11625934B2 (en) * 2020-02-04 2023-04-11 Eygs Llp Machine learning based end-to-end extraction of tables from electronic documents
US11182178B1 (en) 2020-02-21 2021-11-23 Automation Anywhere, Inc. Detection of user interface controls via invariance guided sub-control learning
US11734061B2 (en) 2020-11-12 2023-08-22 Automation Anywhere, Inc. Automated software robot creation for robotic process automation
US11782734B2 (en) 2020-12-22 2023-10-10 Automation Anywhere, Inc. Method and system for text extraction from an application window for robotic process automation
US11887393B2 (en) 2021-03-02 2024-01-30 Claritrics Inc. End-to-end system for extracting tabular data present in electronic documents and method thereof
US20220335240A1 (en) * 2021-04-15 2022-10-20 Microsoft Technology Licensing, Llc Inferring Structure Information from Table Images
EP4099215B1 (en) 2021-06-03 2024-01-10 Telefonica Cibersecurity & Cloud Tech S.L.U. Computer vision method for detecting document regions that will be excluded from an embedding process and computer programs thereof
US11968182B2 (en) 2021-07-29 2024-04-23 Automation Anywhere, Inc. Authentication of software robots with gateway proxy for access to cloud-based services
US11820020B2 (en) 2021-07-29 2023-11-21 Automation Anywhere, Inc. Robotic process automation supporting hierarchical representation of recordings
WO2023026166A1 (en) * 2021-08-27 2023-03-02 L&T Technology Services Limited System and method for meta-data extraction from documents

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5574802A (en) * 1994-09-30 1996-11-12 Xerox Corporation Method and apparatus for document element classification by analysis of major white region geometry
US20040240735A1 (en) * 2003-04-29 2004-12-02 Mitchell Medina Intelligent text selection tool and method of operation
US20070177183A1 (en) * 2006-02-02 2007-08-02 Microsoft Corporation Generation Of Documents From Images
CN102105862A (zh) * 2008-07-28 2011-06-22 微软公司 实体交互的自动用户界面生成

Family Cites Families (83)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4503515A (en) 1982-05-17 1985-03-05 International Business Machines Corporation Footnote assembly management
US4648067A (en) 1982-05-17 1987-03-03 International Business Machines Corporation Footnote management for display and printing
JPS63304387A (ja) 1987-06-04 1988-12-12 Mitsubishi Electric Corp 文書読取装置
US5111397A (en) 1989-12-11 1992-05-05 Wang Laboratories, Inc. Managing lengthy footnotes in a work processing document
US5680479A (en) 1992-04-24 1997-10-21 Canon Kabushiki Kaisha Method and apparatus for character recognition
JP3088019B2 (ja) 1995-07-31 2000-09-18 富士通株式会社 媒体処理装置及び媒体処理方法
US5848186A (en) 1995-08-11 1998-12-08 Canon Kabushiki Kaisha Feature extraction system for identifying text within a table image
US5737442A (en) * 1995-10-20 1998-04-07 Bcl Computers Processor based method for extracting tables from printed documents
JP3814320B2 (ja) 1995-12-14 2006-08-30 キヤノン株式会社 画像処理方法及び装置
US5784487A (en) 1996-05-23 1998-07-21 Xerox Corporation System for document layout analysis
US5870767A (en) 1996-11-22 1999-02-09 International Business Machines Corporation Method and system for rendering hyper-link information in a printable medium from a graphical user interface
US6289121B1 (en) 1996-12-30 2001-09-11 Ricoh Company, Ltd. Method and system for automatically inputting text image
JPH11134058A (ja) 1997-10-27 1999-05-21 Canon Inc 課金装置、課金方法、及び記憶媒体
US6173073B1 (en) 1998-01-05 2001-01-09 Canon Kabushiki Kaisha System for analyzing table images
US6377704B1 (en) 1998-04-30 2002-04-23 Xerox Corporation Method for inset detection in document layout analysis
JP3912463B2 (ja) 1998-09-29 2007-05-09 富士ゼロックス株式会社 論理構造抽出装置及び論理構造抽出方法
US6336124B1 (en) 1998-10-01 2002-01-01 Bcl Computers, Inc. Conversion data representing a document to other formats for manipulation and display
US6493694B1 (en) 1999-04-01 2002-12-10 Qwest Communications Interational Inc. Method and system for correcting customer service orders
US6757870B1 (en) * 2000-03-22 2004-06-29 Hewlett-Packard Development Company, L.P. Automatic table detection method and system
US20050091576A1 (en) 2003-10-24 2005-04-28 Microsoft Corporation Programming interface for a computer platform
JP2002024306A (ja) * 2000-07-05 2002-01-25 Suzuki Motor Corp 解析モデルデータ作成方法及び装置並びに解析モデルデータ作成用プログラムを記録した記録媒体。
US6915484B1 (en) 2000-08-09 2005-07-05 Adobe Systems Incorporated Text reflow in a structured document
US20020181779A1 (en) 2001-06-04 2002-12-05 Hansen Von L. Character and style recognition of scanned text
US7307642B2 (en) 2001-06-28 2007-12-11 Ideaworks 3D Ltd. Graphics compression
US20030167271A1 (en) 2001-08-28 2003-09-04 Wolfram Arnold RDO-to-PDF conversion tool
US20040205568A1 (en) 2002-03-01 2004-10-14 Breuel Thomas M. Method and system for document image layout deconstruction and redisplay system
US7027071B2 (en) 2002-07-02 2006-04-11 Hewlett-Packard Development Company, L.P. Selecting elements from an electronic document
JP4322509B2 (ja) 2003-01-16 2009-09-02 株式会社東芝 故障検出率算出装置及び故障検出率算出方法
US7272258B2 (en) 2003-01-29 2007-09-18 Ricoh Co., Ltd. Reformatting documents using document analysis information
US8014013B2 (en) 2004-06-24 2011-09-06 Sharp Laboratories Of America, Inc. Systems and methods for segmenting pages and changing settings for graphical elements in printing
US7218783B2 (en) 2003-06-13 2007-05-15 Microsoft Corporation Digital ink annotation process and system for recognizing, anchoring and reflowing digital ink annotations
US7616333B2 (en) 2003-08-21 2009-11-10 Microsoft Corporation Electronic ink processing and application programming interfaces
US7340685B2 (en) 2004-01-12 2008-03-04 International Business Machines Corporation Automatic reference note generator
US7418652B2 (en) 2004-04-30 2008-08-26 Microsoft Corporation Method and apparatus for interleaving parts of a document
US7519899B2 (en) 2004-05-03 2009-04-14 Microsoft Corporation Planar mapping of graphical elements
US7574048B2 (en) 2004-09-03 2009-08-11 Microsoft Corporation Freeform digital ink annotation recognition
ATE501487T1 (de) 2004-12-21 2011-03-15 Canon Kk Segmentierung eines digitalen bildes und herstellung einer kompakten repräsentation
US7386558B2 (en) 2005-04-22 2008-06-10 Microsoft Corporation Methods and systems for filtering an Extensible Application Markup Language (XAML) file to facilitate indexing of the logical content contained therein
US7644356B2 (en) 2005-06-10 2010-01-05 Hewlett-Packard Development Company, L.P. Constraint-based albuming of graphic elements
JP2006350867A (ja) 2005-06-17 2006-12-28 Ricoh Co Ltd 文書処理装置、文書処理方法、プログラム及び情報記録媒体
US20070035780A1 (en) 2005-08-02 2007-02-15 Kabushiki Kaisha Toshiba System and method for defining characteristic data of a scanned document
US20070079236A1 (en) 2005-10-04 2007-04-05 Microsoft Corporation Multi-form design with harmonic composition for dynamically aggregated documents
US7836390B2 (en) 2006-01-26 2010-11-16 Microsoft Corporation Strategies for processing annotations
US7676741B2 (en) 2006-01-31 2010-03-09 Microsoft Corporation Structural context for fixed layout markup documents
US7788580B1 (en) 2006-03-28 2010-08-31 Amazon Technologies, Inc. Processing digital images including headers and footers into reflow content
US8023738B1 (en) 2006-03-28 2011-09-20 Amazon Technologies, Inc. Generating reflow files from digital images for rendering on various sized displays
US7433548B2 (en) 2006-03-28 2008-10-07 Amazon Technologies, Inc. Efficient processing of non-reflow content in a digital image
US7966557B2 (en) 2006-03-29 2011-06-21 Amazon Technologies, Inc. Generating image-based reflowable files for rendering on various sized displays
US7715635B1 (en) 2006-09-28 2010-05-11 Amazon Technologies, Inc. Identifying similarly formed paragraphs in scanned images
US8200009B2 (en) 2007-04-22 2012-06-12 Bo-In Lin Control of optical character recognition (OCR) processes to generate user controllable final output documents
US8023740B2 (en) 2007-08-13 2011-09-20 Xerox Corporation Systems and methods for notes detection
US8861856B2 (en) 2007-09-28 2014-10-14 Abbyy Development Llc Model-based methods of document logical structure recognition in OCR systems
US20090110288A1 (en) 2007-10-29 2009-04-30 Kabushiki Kaisha Toshiba Document processing apparatus and document processing method
US8250469B2 (en) 2007-12-03 2012-08-21 Microsoft Corporation Document layout extraction
JP5468620B2 (ja) 2008-12-18 2014-04-09 コピウン,インク. コンテンツアウェア・データ分割およびデータ重複排除のための方法ならびに装置
US8352855B2 (en) 2009-01-02 2013-01-08 Apple Inc. Selection of text in an unstructured document
US8249356B1 (en) 2009-01-21 2012-08-21 Google Inc. Physical page layout analysis via tab-stop detection for optical character recognition
US8254681B1 (en) 2009-02-05 2012-08-28 Google Inc. Display of document image optimized for reading
US8819541B2 (en) 2009-02-13 2014-08-26 Language Technologies, Inc. System and method for converting the digital typesetting documents used in publishing to a device-specfic format for electronic publishing
US8311330B2 (en) 2009-04-06 2012-11-13 Accenture Global Services Limited Method for the logical segmentation of contents
US9135249B2 (en) 2009-05-29 2015-09-15 Xerox Corporation Number sequences detection systems and methods
JP5465015B2 (ja) 2010-01-06 2014-04-09 キヤノン株式会社 文書を電子化する装置及び方法
US9081412B2 (en) 2010-07-31 2015-07-14 Hewlett-Packard Development Company, L.P. System and method for using paper as an interface to computer applications
US8340425B2 (en) 2010-08-10 2012-12-25 Xerox Corporation Optical character recognition with two-pass zoning
US20120096345A1 (en) 2010-10-19 2012-04-19 Google Inc. Resizing of gesture-created markings for different display sizes
WO2012057891A1 (en) 2010-10-26 2012-05-03 Hewlett-Packard Development Company, L.P. Transformation of a document into interactive media content
US8542926B2 (en) 2010-11-19 2013-09-24 Microsoft Corporation Script-agnostic text reflow for document images
US9042653B2 (en) 2011-01-24 2015-05-26 Microsoft Technology Licensing, Llc Associating captured image data with a spreadsheet
US9690770B2 (en) 2011-05-31 2017-06-27 Oracle International Corporation Analysis of documents using rules
US8560937B2 (en) * 2011-06-07 2013-10-15 Xerox Corporation Generate-and-test method for column segmentation
US8645819B2 (en) 2011-06-17 2014-02-04 Xerox Corporation Detection and extraction of elements constituting images in unstructured document files
US8910039B2 (en) 2011-09-09 2014-12-09 Accenture Global Services Limited File format conversion by automatically converting to an intermediate form for manual editing in a multi-column graphical user interface
US20130191732A1 (en) 2012-01-23 2013-07-25 Microsoft Corporation Fixed Format Document Conversion Engine
US8942489B2 (en) 2012-01-23 2015-01-27 Microsoft Corporation Vector graphics classification engine
US8977586B2 (en) * 2012-01-30 2015-03-10 Formcept Technologies and Solutions Pvt Ltd System and method for prioritizing resumes based on a job description
US9471550B2 (en) 2012-10-16 2016-10-18 Linkedin Corporation Method and apparatus for document conversion with font metrics adjustment for format compatibility
US9953008B2 (en) 2013-01-18 2018-04-24 Microsoft Technology Licensing, Llc Grouping fixed format document elements to preserve graphical data semantics after reflow by manipulating a bounding box vertically and horizontally
US9703759B2 (en) 2013-01-18 2017-07-11 Microsoft Technology Licensing, Llc Footnote zone detection in a fixed format document using number of paragraphs in footnote description
US9251413B2 (en) 2013-06-14 2016-02-02 Lexmark International Technology, SA Methods for automatic structured extraction of data in OCR documents having tabular data
US9355313B2 (en) 2014-03-11 2016-05-31 Microsoft Technology Licensing, Llc Detecting and extracting image document components to create flow document
US20160026858A1 (en) 2014-07-28 2016-01-28 Microsoft Corporation Image based search to identify objects in documents
US9588952B2 (en) 2015-06-22 2017-03-07 International Business Machines Corporation Collaboratively reconstituting tables
US20170220858A1 (en) 2016-02-01 2017-08-03 Microsoft Technology Licensing, Llc Optical recognition of tables

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5574802A (en) * 1994-09-30 1996-11-12 Xerox Corporation Method and apparatus for document element classification by analysis of major white region geometry
US20040240735A1 (en) * 2003-04-29 2004-12-02 Mitchell Medina Intelligent text selection tool and method of operation
US20070177183A1 (en) * 2006-02-02 2007-08-02 Microsoft Corporation Generation Of Documents From Images
CN102105862A (zh) * 2008-07-28 2011-06-22 微软公司 实体交互的自动用户界面生成

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
F.CESARINI ET AL: ""Trainable table location in document images"", 《PATTERN RECOGNITION,2002.PROCEEDINGS,16TH INTERNATIONAL CONFERENCE ON QUEBEC CITY,QUE.》 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108446264A (zh) * 2018-03-26 2018-08-24 阿博茨德(北京)科技有限公司 Pdf文档中的表格矢量解析方法及装置
CN108446264B (zh) * 2018-03-26 2022-02-15 阿博茨德(北京)科技有限公司 Pdf文档中的表格矢量解析方法及装置
CN110532834A (zh) * 2018-05-24 2019-12-03 北京庖丁科技有限公司 基于富文本格式文档的表格提取方法、装置、设备和介质
CN110532834B (zh) * 2018-05-24 2022-12-23 北京庖丁科技有限公司 基于富文本格式文档的表格提取方法、装置、设备和介质
CN109284495A (zh) * 2018-11-03 2019-01-29 上海犀语科技有限公司 一种对文本进行无表格线切表的方法及装置
CN109284495B (zh) * 2018-11-03 2023-02-07 上海犀语科技有限公司 一种对文本进行无表格线切表的方法及装置
CN109635268A (zh) * 2018-12-29 2019-04-16 南京吾道知信信息技术有限公司 Pdf文件中表格信息的提取方法
CN109635268B (zh) * 2018-12-29 2023-05-05 南京吾道知信信息技术有限公司 Pdf文件中表格信息的提取方法
CN112380812A (zh) * 2020-10-09 2021-02-19 北京中科凡语科技有限公司 Pdf不完整框线表格提取方法、装置、设备及存储介质
CN112380812B (zh) * 2020-10-09 2022-02-22 北京中科凡语科技有限公司 Pdf不完整框线表格提取方法、装置、设备及存储介质
CN112906695A (zh) * 2021-04-14 2021-06-04 数库(上海)科技有限公司 适配多类ocr识别接口的表格识别方法及相关设备
CN112906695B (zh) * 2021-04-14 2022-03-08 数库(上海)科技有限公司 适配多类ocr识别接口的表格识别方法及相关设备

Also Published As

Publication number Publication date
EP2807608B1 (en) 2024-04-10
WO2013110289A1 (en) 2013-08-01
CN104094282B (zh) 2017-11-21
EP2807608A1 (en) 2014-12-03
KR101872564B1 (ko) 2018-06-28
US20130191715A1 (en) 2013-07-25
JP2015510177A (ja) 2015-04-02
JP5952428B2 (ja) 2016-07-13
KR20140114394A (ko) 2014-09-26
US9990347B2 (en) 2018-06-05

Similar Documents

Publication Publication Date Title
CN104094282A (zh) 无边框表格检测引擎
CN104067293B (zh) 矢量图分类引擎
CN104221033A (zh) 固定格式文档转换引擎
CN104094278A (zh) 模式匹配引擎
CN104067292B (zh) 公式检测引擎
CN105493481B (zh) 自动改变图形用户界面的显示的方法及系统
US9778817B2 (en) Tagging of images based on social network tags or comments
CN102945226A (zh) 多个内容项和功能到电子内容项的应用
CN105247509A (zh) 检测并重构固定格式文档中的东亚布局特征
CN106203761A (zh) 提取并显现来自数据源的用户工作属性
CN104584003A (zh) 词检测和域字典推荐
EP3114566B1 (en) Shadowing local on-premises information to a cloud-based computing system
KR101984937B1 (ko) 전통문화 3d 디지털 연표 표출 시스템
Kruspe et al. Detection of actionable tweets in crisis events
CN108369806A (zh) 可配置的通用语言理解模型
WO2014101416A1 (zh) 一种文件展示方法及装置
CN105144147A (zh) 检测并重构固定格式文档中的从右到左文本方向、连字和变音符号
TW201539210A (zh) 個人資訊管理服務系統
Crabtree et al. Digital records and the digital replay system
Park An Actor-Network Perspective on Collections Documentation and Data Practices at Museums
de las Heras et al. Runlength histogram image signature for perceptual retrieval of architectural floor plans
Koutamanis Building Information-Representation and Management: Principles and Foundations for the Digital Era
CN106777124B (zh) 语义认知方法、装置及系统
US20140181143A1 (en) File presentation method and apparatus
US10782947B2 (en) Systems and methods of diagram transformation

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
ASS Succession or assignment of patent right

Owner name: MICROSOFT TECHNOLOGY LICENSING LLC

Free format text: FORMER OWNER: MICROSOFT CORP.

Effective date: 20150727

C41 Transfer of patent application or patent right or utility model
TA01 Transfer of patent application right

Effective date of registration: 20150727

Address after: Washington State

Applicant after: Micro soft technique license Co., Ltd

Address before: Washington State

Applicant before: Microsoft Corp.

GR01 Patent grant
GR01 Patent grant