CN106156715A - 分析表格图像的布局的方法和设备 - Google Patents

分析表格图像的布局的方法和设备 Download PDF

Info

Publication number
CN106156715A
CN106156715A CN201510200995.0A CN201510200995A CN106156715A CN 106156715 A CN106156715 A CN 106156715A CN 201510200995 A CN201510200995 A CN 201510200995A CN 106156715 A CN106156715 A CN 106156715A
Authority
CN
China
Prior art keywords
prospect
row
blank column
candidate
blank
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510200995.0A
Other languages
English (en)
Inventor
李鑫
范伟
孙俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to CN201510200995.0A priority Critical patent/CN106156715A/zh
Publication of CN106156715A publication Critical patent/CN106156715A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Character Input (AREA)

Abstract

本发明公开了一种分析表格图像的布局的方法和设备。根据本发明的分析表格图像的布局的方法包括:提取候选前景行;提取空白列;以及基于空白列,从候选前景行中,选择前景行;其中,所述空白列和所述前景行表明了表格图像的布局。根据本发明的方法和设备能够准确地确定表格图像的表头、表尾、正文等的位置,便于后续对表格的内容进行提取和分析。

Description

分析表格图像的布局的方法和设备
技术领域
本发明一般地涉及图像处理领域。具体而言,本发明涉及一种能够准确地确定表格图像的表头、表尾、正文等的位置,便于后续对表格的内容进行提取和分析的方法和设备。
背景技术
近年来,随着信息的数字化程度不断提高,以表格文档图像形式存在的数据量呈现海量化的趋势。表格文档图像的庞大的数据量显然不适合以人工方式进行处理分析,期望能够自动地、准确地分析表格图像的布局,从而提取出有意义的表格正文,进而对每个表单项切分和识别。
然而,表格文档的形式多样,其中掺杂有很多线条、文字等,所以表格图像的版面分析(分析表格图像的布局)颇为困难。分析表格图像的布局的重点在于确定表格图像的正文部分,通过分行和分列,基本确定正文部分的每个表单项的区域。另外,分析表格图像的布局也可包括确定表格图像的表头(如有)、表尾(如有)的位置。
传统的方式是表格图像中的前景(黑色像素)向水平方向上和向竖直方向上投影,根据投影的结果,基于文本行之间存在较大空白的假设,确定表格图像的布局。一方面这种方法的精度较低,另一方面当表格图像存在较为复杂的版面布局或者表格图像中存在较多噪声时,难以正确地确定表格图像的布局。
因此,期望一种分析表格图像的布局的方法和设备,其能够准确地确定表格图像的表头、表尾、正文等的位置,便于后续对表格的内容进行提取和分析。
发明内容
在下文中给出了关于本发明的简要概述,以便提供关于本发明的某些方面的基本理解。应当理解,这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分,也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序。
本发明的目的是针对现有技术的上述问题,提出了一种能够分析表格图像的布局的方法和设备。
为了实现上述目的,根据本发明的一个方面,提供了一种分析表格图像的布局的方法,该方法包括:提取候选前景行;提取空白列;以及基于空白列,从候选前景行中,选择前景行;其中,所述空白列和所述前景行表明了表格图像的布局。
根据本发明的另一个方面,提供了一种分析表格图像的布局的设备,该设备包括:行候选提取装置,被配置为:提取候选前景行;空白列提取装置,被配置为:提取空白列;以及前景行选择装置,被配置为:基于空白列,从候选前景行中,选择前景行;其中,所述空白列和所述前景行表明了表格图像的布局。
另外,根据本发明的另一方面,还提供了一种存储介质。所述存储介质包括机器可读的程序代码,当在信息处理设备上执行所述程序代码时,所述程序代码使得所述信息处理设备执行根据本发明的上述方法。
此外,根据本发明的再一方面,还提供了一种程序产品。所述程序产品包括机器可执行的指令,当在信息处理设备上执行所述指令时,所述指令使得所述信息处理设备执行根据本发明的上述方法。
附图说明
参照下面结合附图对本发明实施例的说明,会更加容易地理解本发明的以上和其它目的、特点和优点。附图中的部件只是为了示出本发明的原理。在附图中,相同的或类似的技术特征或部件将采用相同或类似的附图标记来表示。附图中:
图1示出了根据本发明的实施例的分析表格图像的布局的方法的流程图;
图2示出了根据本发明的实施例的提取空白列的方法的流程图;
图3示出了搜索表格图像中的空白矩形区域的迭代示意;
图4示出了根据本发明的实施例的提取候选前景行的方法的流程图;
图5示出了根据本发明实施例的分析表格图像的布局的设备的结构方框图;
图6示出了表格图像的示例;以及
图7示出了可用于实施根据本发明实施例的方法和设备的计算机的示意性框图。
具体实施方式
在下文中将结合附图对本发明的示范性实施例进行详细描述。为了清楚和简明起见,在说明书中并未描述实际实施方式的所有特征。然而,应该了解,在开发任何这种实际实施方式的过程中必须做出很多特定于实施方式的决定,以便实现开发人员的具体目标,例如,符合与系统及业务相关的那些限制条件,并且这些限制条件可能会随着实施方式的不同而有所改变。此外,还应该了解,虽然开发工作有可能是非常复杂和费时的,但对得益于本公开内容的本领域技术人员来说,这种开发工作仅仅是例行的任务。
在此,还需要说明的一点是,为了避免因不必要的细节而模糊了本发明,在附图中仅仅示出了与根据本发明的方案密切相关的装置结构和/或处理步骤,而省略了与本发明关系不大的其他细节。另外,还需要指出的是,在本发明的一个附图或一种实施方式中描述的元素和特征可以与一个或更多个其它附图或实施方式中示出的元素和特征相结合。
下面将参照图1描述根据本发明的实施例的分析表格图像的布局的方法的流程。
图1示出了根据本发明的实施例的分析表格图像的布局的方法的流程图。如图1所示,根据本发明的实施例的分析表格图像的布局的方法包括如下步骤:提取候选前景行(步骤S1);提取空白列(步骤S2);以及基于空白列,从候选前景行中,选择前景行(步骤S3),其中,所述空白列和所述前景行表明了表格图像的布局。
应注意,本发明的说明以发明的要点、关键性步骤、优选的方式为主,并不限于此。例如,在执行本发明的步骤S1之前,应针对输入的表格图像执行预处理,包括但不限于,去除表格图像中的彩色图章、去除表格图像中的噪点、对表格图像执行二值化、将表格图像正向放置(倾斜校正)、去掉表格图像中的所有线条(表格线)、提取表格图像中的连通域(前景文字)。
经过上述预处理,去除了不相干的干扰因素,如彩色图章、噪点、表格线等,保证了表格图像的正向放置以在下述步骤中针对此布置以水平方向和竖直方向进行各种处理,已知了前景像素和背景像素(二值化)及其分布情况(连通域)。
在步骤S1中,提取候选前景行。
此步骤的目的是初步确定作为候选的前景行的位置,进而在后续步骤中加以筛选,以获得真正的前景行。因此,只要是能够提取前景行的方法均可用于实现本步骤。
举例来说,可以采用投影方法,如将表格图像中的前景像素沿着水平方向向竖直轴投影,并统计与每一行像素对应的竖直轴上的点被投影了多少个前景像素,也即统计表格图像中的每一行像素中有多少个是前景像素,从而获得竖直方向上的前景像素投影直方图。根据该直方图的特征,也即前景像素在竖直方向上的分布情况,可以较为粗略地获得候选前景行。例如,直方图中,搜索满足下列条件的连续多个区段(bin,对应于一行像素):其中每个区段中的前景像素点的个数超过某一阈值,连续多个区段两端外侧紧邻的区段中的前景像素点的个数低于另一阈值,将搜索到的多个连续区段对应的行确定为候选前景行。
再比如,步骤S2中提取空白列的方法,经调整后可以变为提取空白行的方法,空白行之间的行可被确定为候选前景行。具体细节将在下文中详述。
作为示例,也可以在已获得的连通域基础上,组合满足预定条件的连通域,以获得候选前景行。
在步骤S2中,提取空白列。
提取空白列的一个目的是在下面说明的步骤S3中筛选候选前景行,以获得真正的前景行,另一个目的是利用空白列,对前景行进行切割,以得到表单项的具体位置。
提取空白列的方法同样可以有多种,只要能相对准确地定位空白列的位置就可用于本发明。下面介绍一种优选的实现方式。
图2示出了根据本发明的实施例的提取空白列的方法的流程图。如图2所示,根据本发明的实施例的提取空白列的方法包括如下步骤:去除表格图像底部的空白区域(步骤S21);基于空白矩形区域面积和高度最大化的准则,搜索表格图像剩余部分中的空白矩形区域(步骤S22);去除不符合与宽高比、矩形宽度相关的条件的空白矩形区域(步骤S23);提取剩余的空白矩形区域作为空白列(步骤S24)。
提取空白列的基本思想是获取表格图像中的空白矩形区域块,然后通过适当的过滤和合并,获得便于确认和切割前景行的较为精确的空白列。
首先,在步骤S21中,去除表格图像底部的空白区域。这是因为表格图像往往在底部具有大片空白区域,该区域对于下面的各项处理具有干扰作用,因此,需要去除该区域。表格图像的底部可以根据表格图像的整体尺寸进行确定。
然后,在步骤S22中,基于空白矩形区域面积和高度最大化的准则,搜索表格图像剩余部分中的空白矩形区域。
步骤S22的具体子步骤如下。
首先,如图3所示,寻找当前区域(即表格图像)中的连通域中处于最中心位置的连通域。假设找到图3中正中的文本框。
然后,利用包含该连通域的水平条带,将当前区域分为上、下两部分,如图3左侧所示。而且,利用包含该连通域的竖直条带,将当前区域分为左、右两部分,如图3右侧所示。应注意,分为上、下两个部分和分为左、右两个部分的操作都是针对当前区域进行的,划分得到的区域可以存在重合。如上部分和左部分有重合,上部分和右部分有重合,下部分和左部分有重合,下部分和右部分有重合。
接着,在所获得的上、下、左、右四个部分中的每一个部分中,再次重复上述步骤。即将所获得的上、下、左、右四个部分中的每一个部分作为当前区域,再次寻找其中的连通域中处于最中心位置的连通域。然后,利用包含这个连通域的水平条带和竖直条带分别将当前区域划分为上、下、左、右四个子部分。
接着,再针对十六个子部分中的每一个(当前区域)重复上述寻找、划分步骤,直至当前区域中没有连通域。
通过上述迭代,能够穷举性地找出按照上述规则划分出的全部空白矩形区域。这些空白矩形区域之间可能存在有重叠。
最后,基于空白矩形区域面积和高度最大化的准则,从上述空白矩形区域中,选择最满足准则的前N个空白矩形区域,N为自然数,由本领域技术人员确定。
由于希望找到的是空白列,所以空白矩形区域的面积应该尽可能大,空白矩形区域的高度应该尽可能高,这样的空白矩形区域才有可能是空白列或者空白列的一部分。
例如,准则可以表示为max(g(x)=h*w*h*h)。
其中,h表示空白矩形区域的高度,w表示空白矩形区域的宽度,h*w表示空白矩形区域的面积,h*h从空白矩形区域的高度角度提供因子,g(x)为考虑两因素计算的参考值,准则希望参考值g(x)尽量大。这样,既考虑空白矩形区域的面积,又考虑空白矩形区域的高度。上述公式仅为示例。
在步骤S23中,去除不符合与宽高比、矩形宽度相关的条件的空白矩形区域。
由于希望找到的是空白列,所以希望找到瘦高型,而非矮扁型空白矩形区域。另外,空白列的宽度应大于文字间的空隙。所以可以设置适当的条件来筛选空白矩形区域,条件可与宽高比、矩形宽度相关。
例如,宽高比条件可以是h/w>A,其中,h表示空白矩形区域的高度,w表示空白矩形区域的宽度,h/w表示空白矩形区域的高度与宽度之比,A为预定阈值,即宽高比条件为空白矩形区域的宽高比大于预定阈值。
例如,矩形宽度条件可以为w>Ws,其中,w表示空白矩形区域的宽度,Ws表示表明文字间的空隙的预定阈值,其取值例如是表格图像中的连通域的平均宽度乘以调整系数后的值,调整系数大于0且小于1,优选取1/2。
经过上述搜索和筛选之后,剩余的空白矩形区域就是满足条件的空白矩形区域。因此,在步骤S24中,提取剩余的空白矩形区域作为空白列。
至此,经过步骤S21-S24,完成了对空白列的提取。
根据本发明的优选实施例,还可以进一步组合和筛选目前保留的空白矩形区域,从而获得空白列的更精确提取结果。
在一个优选实施例中,组合在水平方向上存在重叠的空白矩形区域。这是因为空白列在水平方向上有重叠,说明其对表格图像中的前景行的分割作用是一致的。组合的方法例如是对于两个水平方向上存在重叠的初始空白矩形区域,组合后的新空白矩形区域的宽边是两个初始空白矩形区域的水平重合部分,组合后的新空白矩形区域的长边是两个初始空白矩形区域中较高的那个初始空白矩形区域的长边(高度),也即组合后的新空白矩形区域是两个初始空白矩形区域的重合部分在竖直方向上延长到具有两个初始空白矩形区域中较高的那个初始空白矩形区域的高度的结果。
在一个优选实施例中,如果两个水平方向上相邻空白矩形区域之间存在大量空白,则去除这两个空白矩形区域中竖直方向上较短的一个。
这是因为这样的两个相邻空白矩形区域之间没有多少需要被空白列分割开来的前景,这样的大量空白两边不全是空白列,只需保留一侧的空白列,而竖直方向上较长的空白矩形区域比竖直方向上较短的空白矩形区域更有可能是真正的空白列。判定两个水平方向上相邻空白矩形区域之间是否存在大量空白的方法可以是将两个水平方向上相邻空白矩形区域之间的前景向竖直轴投影,投影得到的前景像素的个数越多或占两者重合高度的比例越大,说明两个水平方向上相邻空白矩形区域之间存在的空白越少,反之,空白越多。
在一个优选的实施例中,如果一个空白矩形区域的高度与最高的空白矩形区域的高度之比小于特定阈值,则去除该空白矩形区域。
这是因为从表格图像整体来看,空白列的高度应该普遍较高,明显矮于其它空白列的空白矩形区域不是真正的空白列。特定阈值优选取1/3。
因此,计算每个空白矩形区域的高度与空白矩形区域中最高的空白矩形区域的高度之比,如果高度之比小于特定阈值,则该空白矩形区域不是真正的空白列,需要去除。
公式表示为h<β*max(h),其中,h表示空白矩形区域的高度,max(h)表示最高的空白矩形区域的高度,β表示特定阈值。
以上说明了如何提取空白列。
可以理解,上述提取空白列的方法经过适当调整后,同样可以用来实现提取空白行,而空白行之间的行就是候选前景行。适当调整包括但不限于宽度改为高度,高度改为宽度,水平改为竖直,竖直改为水平,宽高比定义从高度除以宽度,改为宽度除以高度等。
例如,可以通过图4所示的方法提取候选前景行。如图4所示,首先,基于空白矩形区域面积和宽度最大化的准则,搜索表格图像中的空白矩形区域(步骤S41);然后,去除不符合与宽高比、矩形高度相关的条件的空白矩形区域(步骤S42);最后,提取剩余的空白矩形区域之间的行作为候选前景行(步骤S43)。
在一个优选实施例中,组合在竖直方向上存在重叠的空白矩形区域。
在一个优选实施例中,如果两个竖直方向上相邻空白矩形区域之间存在大量空白,则去除这两个空白矩形区域中水平方向上较短的一个。
在一个优选实施例中,如果一个空白矩形区域的宽度与最宽的空白矩形区域的宽度之比小于特定阈值,则去除该空白矩形区域。
在步骤S3中,基于空白列,从候选前景行中,选择前景行。
作为一种优选实施方式,首先,在竖直方向上延长空白列,然后,根据延长的空白列与候选前景行的交集中包含的前景文字的多少和/或延长的空白列之间的区域与候选前景行的交集中包含的前景文字的多少,从候选前景行中选择前景行。
延长的空白列与候选前景行的交集中包含的前景文字越多,表明该候选前景行越可能不是表格正文,而是表头、表尾,如图6中的表头“吉林大学白求恩第一医院(总院)住院病人药品汇总清单”这一行是候选前景行,但不是想提取的表格正文的前景行。因此,规则A可以设计为延长的空白列与候选前景行的交集中包含的前景文字少于预定阈值。前景文字的多少可以通过前景像素数或连通域数/面积表征。
延长的空白列之间的区域与候选前景行的交集中包含的前景文字越少,表明该候选前景行越可能不是表格正文,而是表头、表尾,如图6中的表头“吉林大学白求恩第一医院(总院)住院病人药品汇总清单”这一行是候选前景行,但不是想提取的表格正文的前景行。因此,规则B可以设计为延长的空白列之间的区域与候选前景行的交集中包含的前景文字多于预定阈值。前景文字的多少可以通过前景像素数或连通域数/面积表征。
经过步骤S2提取的空白列和经过步骤S3提取的前景行表明了表格图像的布局:前景行为表格的正文部分,空白列将前景行划分为若干表格项,即空白列之间的竖直区域与前景行的交集构成表格图像中的表格块,除了前景行之外的候选前景行是表格的表头、表尾等非正文部分。
下面,将参照图5描述根据本发明实施例的分析表格图像的布局的设备。
图5示出了根据本发明实施例的分析表格图像的布局的设备的结构方框图。如图5所示,根据本发明的布局分析设备500包括:行候选提取装置51,被配置为:提取候选前景行;空白列提取装置52,被配置为:提取空白列;以及前景行选择装置53,被配置为:基于空白列,从候选前景行中,选择前景行;其中,所述空白列和所述前景行表明了表格图像的布局。
在一个实施例中,行候选提取装置51包括:第一搜索单元,被配置为:基于空白矩形区域面积和宽度最大化的准则,搜索表格图像中的空白矩形区域;第一去除单元,被配置为:去除不符合与宽高比、矩形高度相关的条件的空白矩形区域;第一提取单元,被配置为:提取剩余的空白矩形区域之间的行作为候选前景行。
在一个实施例中,空白列提取装置52包括:底去除单元,被配置为:去除表格图像底部的空白区域;第二搜索单元,被配置为:基于空白矩形区域面积和高度最大化的准则,搜索表格图像剩余部分中的空白矩形区域;第二去除单元,被配置为:去除不符合与宽高比、矩形宽度相关的条件的空白矩形区域;第二提取单元,被配置为:提取剩余的空白矩形区域作为空白列。
在一个实施例中,空白列提取装置52还包括:组合单元,被配置为:组合在水平方向上存在重叠的空白矩形区域。
在一个实施例中,第二去除单元被进一步配置为:如果两个水平方向上相邻空白矩形区域之间存在大量空白,则去除这两个空白矩形区域中竖直方向上较短的一个。
在一个实施例中,第二去除单元被进一步配置为:如果一个空白矩形区域的高度与最高的空白矩形区域的高度之比小于特定阈值,则去除该空白矩形区域。
在一个实施例中,前景行选择装置53包括:延长单元,被配置为:在竖直方向上延长空白列;选择单元,被配置为:根据延长的空白列与候选前景行的交集中包含的前景文字的多少和/或延长的空白列之间的区域与候选前景行的交集中包含的前景文字的多少,从候选前景行中选择前景行。
在一个实施例中,空白列之间的竖直区域与所述前景行的交集构成表格图像中的表格块。
在一个实施例中,布局分析设备500还包括:线条去除装置,被配置为:去掉表格图像中的所有线条。
在一个实施例中,布局分析设备500还包括:放置装置,被配置为:在提取表格图像中的连通域之前,将表格图像正向放置。
由于在根据本发明的布局分析设备500中所包括的各个装置和单元中的处理分别与上面描述的分析表格图像的布局的方法中所包括的各个步骤中的处理类似,因此为了简洁起见,在此省略这些装置和单元的详细描述。
此外,这里尚需指出的是,上述设备中各个组成装置、单元可以通过软件、固件、硬件或其组合的方式进行配置。配置可使用的具体手段或方式为本领域技术人员所熟知,在此不再赘述。在通过软件或固件实现的情况下,从存储介质或网络向具有专用硬件结构的计算机(例如图7所示的通用计算机700)安装构成该软件的程序,该计算机在安装有各种程序时,能够执行各种功能等。
图7示出了可用于实施根据本发明实施例的方法和设备的计算机的示意性框图。
在图7中,中央处理单元(CPU)701根据只读存储器(ROM)702中存储的程序或从存储部分708加载到随机存取存储器(RAM)703的程序执行各种处理。在RAM 703中,还根据需要存储当CPU 701执行各种处理等等时所需的数据。CPU 701、ROM 702和RAM 703经由总线704彼此连接。输入/输出接口705也连接到总线704。
下述部件连接到输入/输出接口705:输入部分706(包括键盘、鼠标等等)、输出部分707(包括显示器,比如阴极射线管(CRT)、液晶显示器(LCD)等,和扬声器等)、存储部分708(包括硬盘等)、通信部分709(包括网络接口卡比如LAN卡、调制解调器等)。通信部分709经由网络比如因特网执行通信处理。根据需要,驱动器710也可连接到输入/输出接口705。可拆卸介质711比如磁盘、光盘、磁光盘、半导体存储器等等可以根据需要被安装在驱动器710上,使得从中读出的计算机程序根据需要被安装到存储部分708中。
在通过软件实现上述系列处理的情况下,从网络比如因特网或存储介质比如可拆卸介质711安装构成软件的程序。
本领域的技术人员应当理解,这种存储介质不局限于图7所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质711。可拆卸介质711的例子包含磁盘(包含软盘(注册商标))、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD)(注册商标))和半导体存储器。或者,存储介质可以是ROM 702、存储部分708中包含的硬盘等等,其中存有程序,并且与包含它们的设备一起被分发给用户。
本发明还提出一种存储有机器可读取的指令代码的程序产品。所述指令代码由机器读取并执行时,可执行上述根据本发明实施例的方法。
相应地,用于承载上述存储有机器可读取的指令代码的程序产品的存储介质也包括在本发明的公开中。所述存储介质包括但不限于软盘、光盘、磁光盘、存储卡、存储棒等等。
在上面对本发明具体实施例的描述中,针对一种实施方式描述和/或示出的特征可以以相同或类似的方式在一个或更多个其它实施方式中使用,与其它实施方式中的特征相组合,或替代其它实施方式中的特征。
应该强调,术语“包括/包含”在本文使用时指特征、要素、步骤或组件的存在,但并不排除一个或更多个其它特征、要素、步骤或组件的存在或附加。
此外,本发明的方法不限于按照说明书中描述的时间顺序来执行,也可以按照其他的时间顺序地、并行地或独立地执行。因此,本说明书中描述的方法的执行顺序不对本发明的技术范围构成限制。
尽管上面已经通过对本发明的具体实施例的描述对本发明进行了披露,但是,应该理解,上述的所有实施例和示例均是示例性的,而非限制性的。本领域的技术人员可在所附权利要求的精神和范围内设计对本发明的各种修改、改进或者等同物。这些修改、改进或者等同物也应当被认为包括在本发明的保护范围内。
附记
1.一种分析表格图像的布局的方法,包括:
提取候选前景行;
提取空白列;以及
基于空白列,从候选前景行中,选择前景行;
其中,所述空白列和所述前景行表明了表格图像的布局。
2.如附记1所述的方法,其中提取候选前景行包括:
基于空白矩形区域面积和宽度最大化的准则,搜索表格图像中的空白矩形区域;
去除不符合与宽高比、矩形高度相关的条件的空白矩形区域;
提取剩余的空白矩形区域之间的行作为候选前景行。
3.如附记1所述的方法,其中提取空白列包括:
去除表格图像底部的空白区域;
基于空白矩形区域面积和高度最大化的准则,搜索表格图像剩余部分中的空白矩形区域;
去除不符合与宽高比、矩形宽度相关的条件的空白矩形区域;
提取剩余的空白矩形区域作为空白列。
4.如附记3所述的方法,其中提取空白列还包括:
组合在水平方向上存在重叠的空白矩形区域。
5.如附记4所述的方法,其中提取空白列还包括:
如果两个水平方向上相邻空白矩形区域之间存在大量空白,则去除这两个空白矩形区域中竖直方向上较短的一个。
6.如附记4或5所述的方法,其中提取空白列还包括:
如果一个空白矩形区域的高度与最高的空白矩形区域的高度之比小于特定阈值,则去除该空白矩形区域。
7.如附记1所述的方法,其中基于空白列,从候选前景行中,选择前景行包括:
在竖直方向上延长空白列;
根据延长的空白列与候选前景行的交集中包含的前景文字的多少和/或延长的空白列之间的区域与候选前景行的交集中包含的前景文字的多少,从候选前景行中选择前景行。
8.如附记1所述的方法,其中所述空白列之间的竖直区域与所述前景行的交集构成表格图像中的表格块。
9.如附记1所述的方法,还包括:在提取候选前景行之前,将表格图像正向放置。
10.如附记1所述的方法,还包括:在提取候选前景行之前,去掉表格图像中的所有线条。
11.一种分析表格图像的布局的设备,包括:
行候选提取装置,被配置为:提取候选前景行;
空白列提取装置,被配置为:提取空白列;以及
前景行选择装置,被配置为:基于空白列,从候选前景行中,选择前景行;
其中,所述空白列和所述前景行表明了表格图像的布局。
12.如附记11所述的设备,其中所述行候选提取装置包括:
第一搜索单元,被配置为:基于空白矩形区域面积和宽度最大化的准则,搜索表格图像中的空白矩形区域;
第一去除单元,被配置为:去除不符合与宽高比、矩形高度相关的条件的空白矩形区域;
第一提取单元,被配置为:提取剩余的空白矩形区域之间的行作为候选前景行。
13.如附记11所述的设备,其中所述空白列提取装置包括:
底去除单元,被配置为:去除表格图像底部的空白区域;
第二搜索单元,被配置为:基于空白矩形区域面积和高度最大化的准则,搜索表格图像剩余部分中的空白矩形区域;
第二去除单元,被配置为:去除不符合与宽高比、矩形宽度相关的条件的空白矩形区域;
第二提取单元,被配置为:提取剩余的空白矩形区域作为空白列。
14.如附记13所述的设备,其中所述空白列提取装置还包括:
组合单元,被配置为:组合在水平方向上存在重叠的空白矩形区域。
15.如附记14所述的设备,其中所述第二去除单元被进一步配置为:
如果两个水平方向上相邻空白矩形区域之间存在大量空白,则去除这两个空白矩形区域中竖直方向上较短的一个。
16.如附记14或15所述的设备,其中所述第二去除单元被进一步配置为:
如果一个空白矩形区域的高度与最高的空白矩形区域的高度之比小于特定阈值,则去除该空白矩形区域。
17.如附记11所述的设备,其中所述前景行选择装置包括:
延长单元,被配置为:在竖直方向上延长空白列;
选择单元,被配置为:根据延长的空白列与候选前景行的交集中包含的前景文字的多少和/或延长的空白列之间的区域与候选前景行的交集中包含的前景文字的多少,从候选前景行中选择前景行。
18.如附记11所述的设备,其中所述空白列之间的竖直区域与所述前景行的交集构成表格图像中的表格块。
19.如附记11所述的设备,还包括:线条去除装置,被配置为:去掉表格图像中的所有线条。
20.如附记11所述的设备,还包括:放置装置,被配置为:在提取表格图像中的连通域之前,将表格图像正向放置。

Claims (10)

1.一种分析表格图像的布局的方法,包括:
提取候选前景行;
提取空白列;以及
基于空白列,从候选前景行中,选择前景行;
其中,所述空白列和所述前景行表明了表格图像的布局。
2.如权利要求1所述的方法,其中提取空白列包括:
去除表格图像底部的空白区域;
基于空白矩形区域面积和高度最大化的准则,搜索表格图像剩余部分中的空白矩形区域;
去除不符合与宽高比、矩形宽度相关的条件的空白矩形区域;
提取剩余的空白矩形区域作为空白列。
3.如权利要求2所述的方法,其中提取空白列还包括:
组合在水平方向上存在重叠的空白矩形区域。
4.如权利要求3所述的方法,其中提取空白列还包括:
如果两个水平方向上相邻空白矩形区域之间存在大量空白,则去除这两个空白矩形区域中竖直方向上较短的一个。
5.如权利要求3或4所述的方法,其中提取空白列还包括:
如果一个空白矩形区域的高度与最高的空白矩形区域的高度之比小于特定阈值,则去除该空白矩形区域。
6.如权利要求1所述的方法,其中基于空白列,从候选前景行中,选择前景行包括:
在竖直方向上延长空白列;
根据延长的空白列与候选前景行的交集中包含的前景文字的多少和/或延长的空白列之间的区域与候选前景行的交集中包含的前景文字的多少,从候选前景行中选择前景行。
7.如权利要求1所述的方法,其中所述空白列之间的竖直区域与所述前景行的交集构成表格图像中的表格块。
8.如权利要求1所述的方法,还包括:在提取候选前景行之前,将表格图像正向放置。
9.如权利要求1所述的方法,还包括:在提取候选前景行之前,去掉表格图像中的所有线条。
10.一种分析表格图像的布局的设备,包括:
行候选提取装置,被配置为:提取候选前景行;
空白列提取装置,被配置为:提取空白列;以及
前景行选择装置,被配置为:基于空白列,从候选前景行中,选择前景行;
其中,所述空白列和所述前景行表明了表格图像的布局。
CN201510200995.0A 2015-04-24 2015-04-24 分析表格图像的布局的方法和设备 Pending CN106156715A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510200995.0A CN106156715A (zh) 2015-04-24 2015-04-24 分析表格图像的布局的方法和设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510200995.0A CN106156715A (zh) 2015-04-24 2015-04-24 分析表格图像的布局的方法和设备

Publications (1)

Publication Number Publication Date
CN106156715A true CN106156715A (zh) 2016-11-23

Family

ID=57346684

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510200995.0A Pending CN106156715A (zh) 2015-04-24 2015-04-24 分析表格图像的布局的方法和设备

Country Status (1)

Country Link
CN (1) CN106156715A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109255311A (zh) * 2018-08-29 2019-01-22 深圳市元征科技股份有限公司 一种基于图像的信息识别方法及系统
CN109308465A (zh) * 2018-09-14 2019-02-05 百度在线网络技术(北京)有限公司 表格线检测方法、装置、设备及计算机可读介质
CN110175563A (zh) * 2019-05-27 2019-08-27 上海交通大学 金属切削刀具图纸标注识别方法及系统
CN112669515A (zh) * 2020-12-28 2021-04-16 上海斑马来拉物流科技有限公司 票据图像识别方法、装置、电子设备和存储介质

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020106124A1 (en) * 1998-12-30 2002-08-08 Shin-Ywan Wang Block selection of table features
JP2004127203A (ja) * 2002-07-30 2004-04-22 Ricoh Co Ltd 画像処理装置、画像処理方法、及びその方法をコンピュータに実行させるプログラム、並びにそのプログラムを記録したコンピュータ読み取り可能な記録媒体
CN1928891A (zh) * 2005-09-05 2007-03-14 富士通株式会社 指定文本行提取方法和装置
CN1949249A (zh) * 2005-10-11 2007-04-18 株式会社理光 表格提取方法和设备
CN101127081A (zh) * 2006-08-14 2008-02-20 富士通株式会社 表格数据处理方法和装置
CN101315668A (zh) * 2008-07-01 2008-12-03 上海大学 试卷卷面表格自动检测方法
CN101676930A (zh) * 2008-09-17 2010-03-24 北大方正集团有限公司 一种识别扫描图像中表格单元的方法及装置
CN102402573A (zh) * 2010-09-13 2012-04-04 株式会社理光 表格处理装置和表格处理方法
CN102782703A (zh) * 2010-03-11 2012-11-14 微软公司 经历光学字符识别的图像的页面布局确定
CN103258201A (zh) * 2013-04-26 2013-08-21 四川大学 一种融合全局和局部信息的表格线提取方法
CN103258198A (zh) * 2013-04-26 2013-08-21 四川大学 一种表格文档图像中字符提取方法
CN105184265A (zh) * 2015-09-14 2015-12-23 哈尔滨工业大学 一种基于自学习的手写表格数字字符串快速识别的方法

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020106124A1 (en) * 1998-12-30 2002-08-08 Shin-Ywan Wang Block selection of table features
JP2004127203A (ja) * 2002-07-30 2004-04-22 Ricoh Co Ltd 画像処理装置、画像処理方法、及びその方法をコンピュータに実行させるプログラム、並びにそのプログラムを記録したコンピュータ読み取り可能な記録媒体
CN1928891A (zh) * 2005-09-05 2007-03-14 富士通株式会社 指定文本行提取方法和装置
CN1949249A (zh) * 2005-10-11 2007-04-18 株式会社理光 表格提取方法和设备
CN101127081A (zh) * 2006-08-14 2008-02-20 富士通株式会社 表格数据处理方法和装置
CN101315668A (zh) * 2008-07-01 2008-12-03 上海大学 试卷卷面表格自动检测方法
CN101676930A (zh) * 2008-09-17 2010-03-24 北大方正集团有限公司 一种识别扫描图像中表格单元的方法及装置
CN102782703A (zh) * 2010-03-11 2012-11-14 微软公司 经历光学字符识别的图像的页面布局确定
CN102402573A (zh) * 2010-09-13 2012-04-04 株式会社理光 表格处理装置和表格处理方法
CN103258201A (zh) * 2013-04-26 2013-08-21 四川大学 一种融合全局和局部信息的表格线提取方法
CN103258198A (zh) * 2013-04-26 2013-08-21 四川大学 一种表格文档图像中字符提取方法
CN105184265A (zh) * 2015-09-14 2015-12-23 哈尔滨工业大学 一种基于自学习的手写表格数字字符串快速识别的方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109255311A (zh) * 2018-08-29 2019-01-22 深圳市元征科技股份有限公司 一种基于图像的信息识别方法及系统
CN109255311B (zh) * 2018-08-29 2022-05-17 深圳市元征科技股份有限公司 一种基于图像的信息识别方法及系统
CN109308465A (zh) * 2018-09-14 2019-02-05 百度在线网络技术(北京)有限公司 表格线检测方法、装置、设备及计算机可读介质
CN110175563A (zh) * 2019-05-27 2019-08-27 上海交通大学 金属切削刀具图纸标注识别方法及系统
CN110175563B (zh) * 2019-05-27 2023-03-24 上海交通大学 金属切削刀具图纸标注识别方法及系统
CN112669515A (zh) * 2020-12-28 2021-04-16 上海斑马来拉物流科技有限公司 票据图像识别方法、装置、电子设备和存储介质
CN112669515B (zh) * 2020-12-28 2022-09-27 上海斑马来拉物流科技有限公司 票据图像识别方法、装置、电子设备和存储介质

Similar Documents

Publication Publication Date Title
CN110516208B (zh) 一种针对pdf文档表格提取的系统及方法
US10853565B2 (en) Method and device for positioning table in PDF document
US8542926B2 (en) Script-agnostic text reflow for document images
CN106681996B (zh) 确定地理范围内兴趣区域、兴趣点的方法和装置
CN109726628A (zh) 一种表格图像的识别方法及系统
CN106156715A (zh) 分析表格图像的布局的方法和设备
CN107085726A (zh) 基于多方法去噪和连通区域分析的甲骨拓片单字定位方法
CN112597773A (zh) 文档结构化方法、系统、终端及介质
CN112990183A (zh) 离线手写汉字同名笔画提取方法、系统、装置
CN109598185A (zh) 图像识别翻译方法、装置、设备及可读存储介质
CN113505670A (zh) 基于多尺度cam和超像素的遥感图像弱监督建筑提取方法
KR101434776B1 (ko) 이미지의 코너 포인트를 정정하기 위한 방법 및 장치와 이미지 프로세싱 디바이스
CN115546809A (zh) 基于单元格约束的表格结构识别方法及其应用
CN106650811A (zh) 一种基于近邻协同增强的高光谱混合像元分类方法
CN105447477B (zh) 基于公式库的公式识别方法及装置
CN105786957A (zh) 一种基于单元格邻接关系与深度优先遍历的表格排序方法
CN114022888A (zh) 用于识别pdf表格的方法、设备和介质
CN105069766B (zh) 一种基于汉字图像轮廓特征描述的碑文修复方法
CN103310209A (zh) 识别图像中的字符串的方法和装置
CN112580624A (zh) 基于边界预测的多方向文本区域检测方法和装置
KR20110039900A (ko) 지능형 인식 라이브러리 및 관리 도구를 활용한 고문서 이미지 데이터 인식 및 처리 방법
Li et al. Comic image understanding based on polygon detection
CN115797955A (zh) 基于单元格约束的表格结构识别方法及其应用
CN113642542B (zh) 基于位置约束的手写汉字同名笔画提取方法
CN105512100B (zh) 一种版面分析方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20161123