CN107066433B - 偏移图像中的旋转的表格 - Google Patents

偏移图像中的旋转的表格 Download PDF

Info

Publication number
CN107066433B
CN107066433B CN201611060614.4A CN201611060614A CN107066433B CN 107066433 B CN107066433 B CN 107066433B CN 201611060614 A CN201611060614 A CN 201611060614A CN 107066433 B CN107066433 B CN 107066433B
Authority
CN
China
Prior art keywords
angle
group
line
image
values
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201611060614.4A
Other languages
English (en)
Other versions
CN107066433A (zh
Inventor
达雷尔.E.贝勒特
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Konica Minolta Laboratory USA Inc
Original Assignee
Konica Minolta Laboratory USA Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Konica Minolta Laboratory USA Inc filed Critical Konica Minolta Laboratory USA Inc
Publication of CN107066433A publication Critical patent/CN107066433A/zh
Application granted granted Critical
Publication of CN107066433B publication Critical patent/CN107066433B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/177Editing, e.g. inserting or deleting of tables; using ruled lines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/60Rotation of whole images or parts thereof
    • G06T3/608Rotation of whole images or parts thereof by skew deformation, e.g. two-pass or three-pass rotation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/24Aligning, centring, orientation detection or correction of the image
    • G06V10/243Aligning, centring, orientation detection or correction of the image by compensating for image skew or non-uniform image deformations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/273Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion removing elements interfering with the pattern to be recognised
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)
  • Character Input (AREA)
  • Image Processing (AREA)

Abstract

一种用于图像处理的方法,包括:获得包括表格的图像;标识与图像中的表格对应的第一线条、第一线条的第一置信值、和第一线条的第一角度;启动与多个角度对应的多个角度组;基于所述第一置信值,来计算环绕第一角度的窗口内的多个角度组的第一子集的第一组多个组值;将所述第一组多个组值添加到所述多个角度组的第一子集;标识所述多个角度组中的具有最大组值的角度组;和基于具有最大组值的角度组,来旋转图像。

Description

偏移图像中的旋转的表格
技术领域
本发明涉及偏移图像中的旋转的表格。
背景技术
图像可包括任何数目的表格。此外,每一表格可具有任何尺寸(即,任何数目行、任何数目列)。表格的每一单元(即,行和列的交叉点)可包括任何字体、尺寸、类型等的文本字符。该表格可以是手绘的(即,由用户手动绘制的)或机器生成的。在该图像内,该表格可以不是完全水平或完全垂直的。换言之,表格可针对水平轴或垂直轴旋转。该旋转可以是用户手动绘制表格和/或生成图像的处理(例如,扫描)的结果。
光学字符识别(OCR)是标识图像内的文本字符(例如,表格的单元内的文本字符)的处理。存在许多算法来执行OCR。然而,针对水平轴或垂直轴旋转的文本字符通常阻碍这些算法,并导致不正确结果。无论如何,即使旋转表格,用户依然希望对表格执行OCR。
发明内容
一般来说,在第一方面,本发明涉及用于图像处理的方法。该方法包括:获得包括表格的图像;标识与图像中的表格对应的第一线条、第一线条的第一置信(confidence)值、和第一线条的第一角度;启动与多个角度对应的多个角度组(bin);基于所述第一置信值,来计算环绕第一角度的窗口内的多个角度组的第一子集的第一组多个组值;将所述第一组多个组值添加到多个角度组的第一子集;标识多个角度组中的包括最大组值的角度组;和基于包括最大组值的角度组,来旋转图像。
一般来说,在一个方面,本发明涉及图像处理装置。该图像处理装置包括:用于获得包括表格的图像的部件;用于标识与图像中的表格对应的第一线条、第一线条的第一置信值、和第一线条的第一角度的部件;用于启动与多个角度对应的多个角度组的部件;用于基于所述第一置信值、来计算环绕第一角度的窗口内的多个角度组的第一子集的第一组多个组值的部件;用于将所述第一组多个组值添加到多个角度组的第一子集的部件;用于标识多个角度组中的包括最大组值的角度组的部件;和用于基于包括最大组值的角度组、来旋转图像的部件。
一般来说,在一个方面,本发明涉及用于图像处理的系统。所述系统包括:缓冲器,存储包括表格的图像;线条提取器:标识与图像中的表格对应的第一线条、第一线条的第一置信值、和第一线条的第一角度;和标识与图像中的表格对应的第二线条、第二线条的第二置信值、和第二线条的第二角度;角度组引擎,包括多个组:基于所述第一置信值,来计算环绕第一角度的窗口内的多个角度组的第一子集的第一组多个组值;基于所述第二置信值,来计算环绕第二角度的窗口内的多个角度组的第二子集的第二组多个组值;和将所述第一组多个组值添加到多个角度组的第一子集并将所述第二组多个组值添加到多个角度组的第二子集;和表格引擎,用于基于包括最大组值的角度组,来旋转图像。
本发明的其它方面根据以下描述和附图将显而易见。
附图说明
图1示出了根据本发明一个或多个实施例的系统。
图2示出了根据本发明一个或多个实施例的流程图。
图3A-3F示出了根据本发明一个或多个实施例的实现示例。
图4示出了根据本发明一个或多个实施例的计算机系统。
具体实施方式
现在将参考附图来详细描述本发明的特定实施例。为了一致,各个图中的相同元件由相同附图标记表示。
在本发明实施例的以下详细描述中,提出许多特定细节以便提供本发明的更全面理解。然而,本领域技术人员将清楚的是,可在没有这些特定细节的情况下实践本发明。在其它实例中,还没有详细描述公知特征,以避免不必要地使得该描述复杂化。
一般来说,本发明的实施例提供了用于图像处理的方法、非瞬时计算机可读介质(CRM)、和系统。包括表格的图像被获得并转换为任务。因为表格可手绘,所以表格可以不是完全水平或垂直和/或表格可以不具有完全笔直的线。图像内的与表格对应的多根线条被标识,并且每一标识的线条具有角度和置信值。对于每一线条,对于环绕线条的角度的窗口内的角度组计算组值。该图像基于具有最大组值的角度组旋转。在该旋转之后,表格更接近水平和/或垂直,这改进对图像操作的任何光学字符识别(OCR)算法的结果。
图1示出了根据本发明一个或多个实施例的系统(100)。如图1中所示,系统(100)具有多个组件,包括例如缓冲器(104)、线条提取器(114)、角度组引擎(110)、和表格引擎(108)。这些组件(104,108,110,114)的每一个可位于相同计算装置(例如,个人计算机(PC)、膝上计算机、平板PC、智能电话、多功能打印机、机器房(kiosk)、服务器等)上或由具有有线和/或无线片段的任何尺寸网络连接的不同计算装置上。下面讨论这些组件中的每一个。
在本发明的一个或多个实施例中,该系统(100)包括缓冲器(104)。该缓冲器(104)可在硬件(即,电路)、软件、或其任意组合中实现。该缓冲器(104)被配置为存储包括表格的图像(106)。图像(106)可从任何源获得(例如,下载)。此外,图像(106)可以是任何尺寸和任何格式(例如,JPEG、GIF、BMP、PNG等)。
在一个或多个实施例中,图像(106)中的表格是手绘的。因此,表格可以不是完全水平或完全垂直的。换言之,表格可针对水平和/或垂直轴旋转。此外,表格的线条可与不是完全笔直的。在一个或多个实施例中,表格是机器生成的。然而,即使在这样的实施例中,因为生成图像(106)的处理(例如,扫描)所引入的失真,所以表格可针对水平或垂直轴旋转。表格可具有任意数目的行和列。此外,表格的每一单元可具有文本和/或图形。
在本发明的一个或多个实施例中,该系统(100)包括线条提取器(114)。线条提取器(114)可在硬件(即,电路)、软件、或其任意组合中实现。线条提取器(114)标识图像中的直线、每一线条的角度(例如,针对水平或垂直轴)、和每一线条的置信值(即,有助于该线条的图像中的像素的数目)。在本发明的一个或多个实施例中,线条提取器(114)向图像(106)应用霍夫变换,以标识线条、线条的角度、和线条的置信值。在本发明的一个或多个实施例中,线条提取器(114)在标识图像(106)中的线条之前将图像(106)变换为掩模(例如,二进制图像),以改进线条标识处理。
在本发明的一个或多个实施例中,线条提取器(114)丢弃未能满足一个或多个标准的线条。例如,可将线条的置信值与阈值比较,并且如果置信值低于阈值,则可以丢弃该线条。该阈值可被计算为最置信的N根线条的平均置信值的百分比P。换言之,对于具有最高置信值的N根线条计算平均置信值,并且丢弃具有小于平均置信值的P的置信值的任何线条。例如,P可等于50%,并且N可等于10。
在本发明的一个或多个实施例中,系统(100)包括角度组引擎(110)。角度组引擎(110)可在硬件(即,电路)、软件、或其任意组合中实现。角度组引擎(110)被配置为初始化角度组的集合(例如,阵列),其中每一角度组对应于角度。初始化角度组可包括将所有角度组设置为零或另一常数。集合中的角度组的数目(即,角度组的集合的基数)取决于用来标识线条的变换(例如,霍夫变换)的角分辨率。该变换可以仅寻找具有该角分辨率的增加的角度的线条。该角分辨率可以是该变换的运行时间输入参数。例如,如果该变换的角分辨率是1度,则存在180个可能角度并由此180个角度组(即,0度到179度)。
具有该详细描述的益处的本领域技术人员将理解的是,手绘表格很少利用0和90度的完美线条绘制。对于通过应用的变换所检测的标识的线条的任意角度,标识的线条可能已按照在环绕标识的角度的窗口内的角度绘制。换言之,如果该变换检测到θ度的线条,则该线条可能实际上在从θ–W度到θ+W度的任何地方。例如,W可以是5度,并由此该窗口从θ(即,标识的线条的角度)沿着两个方向有效扩展5度。
在本发明的一个或多个实施例中,角度组引擎(110)对于每一标识的线条计算从θ–W度到θ+W度的每一角度组的组置信值。该组置信值进一步远离θ减小。这转变为按照θ绘制标识的线条的高置信度、以及按照θ–W度或θ+W度绘制标识的线条的最低置信度。在本发明的一个或多个实施例中,角度组b的组置信值(BCVb)通过以下计算:
BCVb=W–|θ–b|+1
如以上等式中所示,角度组b和该线条的角度之间的差是BCVb的因子。具有该详细描述的益处的本领域技术人员将理解的是,在其中b=θ的窗口的中间,BCV为W+1。相反,在其中b=θ±W的窗口的边缘,BCV为1。
在本发明的一个或多个实施例中,角度组引擎(110)对于每一标识的线条计算环绕标识的线条的角度的窗口内的每一角度组的组值。在一个或多个实施例中,每一组b的组值被计算为:
每一组b的组值=BCVb x(标识的线条的置信值)2
具有该详细描述的益处的本领域技术人员将理解的是,通过对线条的置信值求平方,向更强线条给予更大权重,并且抵消具有相对低置信值的许多线条的可能效果。向它们的相应角度组添加组值,并且对于没有丢弃的所有标识的线条该处理重复。
在本发明的一个或多个实施例中,系统(100)包括表格引擎(108)。表格引擎(108)可在硬件(即,电路)、软件、或其任意组合中实现。表格引擎(108)被配置为标识具有最大组值的角度组。认为图像(106)中的表格旋转该角度组(例如,10度)。表格引擎(108)旋转图像(106),并由此基于该角度组旋转表格,以使得该表格大致水平或垂直(即,大致与水平或垂直轴对准)。这使得用户在手绘表格时引入的旋转和/或在生成图像(106)的扫描处理期间引入的旋转有效偏移。该表格引擎(108)还被配置为对图像执行OCR,以提取表格的单元内的文本。因为表格现在较好地对准水平和/或垂直轴,所以OCR成功(即,正确标识/提取文本字符)的似然性已增加。
尽管系统(100)被示出为具有四个组件(104,108,110,114),但是在本发明的其它实施例中,系统(100)可具有更多或更少组件。此外,上述每一组件的功能性可在组件之间分离。
图2示出了根据本发明一个或多个实施例的流程图。该流程图描绘了用于图像处理的处理。特别是,该流程图描绘了用于将手绘表格旋转为大致水平或垂直的处理。图2中的步骤的一个或多个可由上面参考图1讨论的系统(100)的组件执行。在本发明的一个或多个实施例中,图2中示出的步骤的一个或多个可被省略、重复、和/或按照与图2中示出的顺序不同的顺序执行。因此,本发明的范围不应被看作限于图2中示出的步骤的特定安排。
初始地,获得包括表格的图像(步骤205)。可从任何源获得(例如,下载)该图像。该图像可通过扫描硬拷贝文档而生成。该图像可以是任何尺寸或格式。在一个或多个实施例中,图像中的表格是手绘的。因此,表格可以不是完全水平或完全垂直。换言之,表格可针对水平和/或垂直轴旋转。此外,表格的线条可以不是完全笔直的。在一个或多个实施例中,表格是机器生成的。然而,即使在这样的实施例中,因为由生成图像的扫描处理引入的失真,所以表格可针对水平或垂直轴旋转。该表格可具有任意数目的行和列。此外,表格的每一单元可具有文本和/或图形。
在步骤210,将图像转换为掩模。换言之,将图像转换为二进制图像。可将与表格中的线条和/或单元中的文本字符对应的像素设置为1,而将所有剩余像素设置为0。
在步骤215,标识与表格对应的图像中的线条。还标识每一线条的角度(例如,针对水平或垂直轴)和每一线条的置信值(即,有助于线条的图像中的像素的数目)。在本发明的一个或多个实施例中,通过向图像应用霍夫变换,来标识线条、线条的角度和线条的置信值。还可以使用其它变换来标识线条。
在本发明的一个或多个实施例中,丢弃未能满足一个或多个标准的线条。例如,可将线条的置信值与阈值比较,并且如果置信值低于阈值,则可丢弃该线条。可计算该阈值作为最置信的N个线条的平均置信值的百分比P。换言之,对于具有最高置信值的N个线条计算平均置信值,并且丢弃具有小于平均置信值的P的置信值的任何线条。
在步骤220,对角度组进行初始化。每一角度组对应于角度。初始化角度组可包括将所有角度组设置为零或另一常数。集合中的角度组的数目(即,角度组的集合的基数)取决于用来标识线条所使用的变换的角分辨率(步骤215)。该变换可以仅查找具有该角分辨率的增加的角度的线条。角分辨率可以是该变换的运行时间输入参数。例如,如果该变换的角分辨率是1度,则存在180个可能角度,并由此存在180个角度组(即,0度到179度)。
在步骤225,选择这些线条之一。特别是,选择还没有选择的线条。可随机选择线条。另外或作为选择,可选择具有最高置信值或最低置信值的线条。另外或作为选择,可选择具有最小角度或最大角度的线条。
在步骤230,对于环绕所选择的线条的角度的窗口内的角度组,计算组值。基于选择的线条的置信值,来计算组值。如上所述,对于所应用的变换所检测的所标识的线条的任何角度,所标识的线条可能已按照在环绕所标识的角度的窗口内的角度而绘制。换言之,如果该变换检测到θ度的线条,则该线条可能实际上在从θ–W度到θ+W度的任何地方。
在本发明的一个或多个实施例中,计算从θ–W度到θ+W度的每一角度组的组置信值。组置信值进一步远离θ降低。在本发明的一个或多个实施例中,通过以下来计算用于角度组b的组置信值(BCVb):
BCVb=W–|θ–b|+1
在本发明的一个或多个实施例中,计算环绕所标识的线条的角度的窗口内的每一角度组的组值。在一个或多个实施例中,角度组b的组值被计算为:
角度组b的组值=BCVb x(标识的线条的置信值)2
在步骤235,将组值添加到它们的相应的角度组。具有该详细描述的本领域技术人员将理解的是,因为图2中描绘的处理中的一个或多个步骤重复,所以角度组可能已在存储值。在这样的场景中,将在步骤230计算的组值添加到在角度组中存储的现有值(即,不重写现有值)。
在步骤240,确定是否剩余还没有选择的任何附加线条。当确定剩余至少一个线条时,处理返回到步骤225。当确定已选择了所有线条时,处理前进到步骤245。
在步骤245,标识具有最大组值的角度组。认为图像中的表格旋转了该角度组(例如,10度)。在步骤250,图像(以及由此表格)基于与角度组对应的角度旋转。这有效偏移用户在手绘该表格时引入的旋转和/或在生成该图像的扫描处理期间引入的旋转。
在步骤255,对图像执行OCR,以提取表格的单元内的文本。因为表格在旋转之后较好对准水平和/或垂直轴,所以OCR成功(正确标识/提取文本字符)的似然性增大。
图3A-3F示出了根据本发明一个或多个实施例的实现示例。如图3A中所示,存在具有手绘表格(308)的图像(306)。表格(308)的每一单元包括文本。手绘表格(308)的线条不是笔直的。此外,按照角度绘制手绘表格(308)(即,其不与水平轴和/或垂直轴对准)。在该朝向中对图像(306)执行OCR将可能产生差结果。换言之,OCR算法可能不标识/提取旋转的表格的单元中的文本。
图3B示出了在其已变换为掩模(例如,二进制图像)之后的图像(310)。将与线条和文本字符对应的所有像素设置为1,而将所有剩余像素设置为零。
图3C示出了在霍夫变换之后的图像(312)。霍夫变换标识图像内的多个直线。霍夫变换还指定每一标识的线条的角度(例如,针对水平或垂直轴)和置信值(即,有助于标识的线条的图像中的像素的数目)。在图3C中,标识的线条之一具有角度θ=10度、以及置信值483。
在图3D中,示出了这样的图表,其中选择的线条的计算的组置信值和计算的组值具有角度θ=10度、以及置信值483。在该示例中,窗口从标识的线条的角度沿着任一方向延伸5度(即,θ=10度,W=5度,θ–W=5度,以及θ+W=15度)。如示出的,组置信值,以及由此组值,对于等于标识的线条的角度(θ=10度)的角度组是最大的。类似地,组置信值,以及由此组值,在窗口的边缘(即,角度组5度和角度组15度)是最小的。将组值添加到它们的相应角度组。对于所有标识的线条执行类似计算。
图3E示出了在执行所有计算之后的角度组的一些的组值。如图3E中示出的,+10度是具有最大组值的角度组。因此,认为手绘表格(308)旋转+10度。
在FIG.3F中,图像(314)旋转–10度,以使得该表格的手绘所生成的旋转偏移。如图3F中所示,表格(以及由此单元中的文本)更接近于对准水平和垂直轴。因此,对于图像执行的任何OCR操作在标识/提取表格中的文本字符时更可能成功。
本发明的一个或多个实施例可具有以下优点:标识表格的旋转角的能力;基于图像内的标识的线条、而标识表格的旋转角的能力;处理手绘表格的能力;改进对于旋转的表格的成功OCR操作的似然性的能力;说明线角的窗口之间的各个置信级别的能力;基于阈值和置信值丢弃标识的线条的能力;等等。
本发明的实施例可在任何类型计算系统上虚拟实现,而不管使用的平台。例如,该计算系统可以是一个或多个移动装置(例如,膝上计算机、智能电话、个人数字助理、平板计算机、或其它移动装置)、桌面计算机、服务器、服务器底架中的叶片、或包括至少最小处理功率、存储器、以及(多个)输入和输出装置以执行本发明的一个或多个实施例的任何其它类型计算装置。例如,如图4中所示,计算系统(400)可包括一个或多个计算机处理器(402)、关联处理器(404)(例如,随机存取存储器(RAM)、高速缓存存储器、闪速存储器等)、一个或多个储存装置(406)(例如,硬盘、诸如致密盘(CD)驱动器或数字多功能盘(DVD)驱动器的光学驱动器、闪存记忆棒等)、以及多个其它元素和功能性。(多个)计算机处理器(402)可以是用于处理指令的集成电路。例如,(多个)计算机处理器可以是处理器的一个或多个内核、或微内核。计算系统(400)还可以包括一个或多个输入装置(410),诸如触摸屏、键盘、鼠标、麦克风、触摸板、电子笔、和任何其它类型输入装置。此外,计算系统(400)可包括一个或多个输出装置(408),诸如屏幕(例如,液晶显示器(LCD)、等离子显示器、触摸屏、阴极射线管(CRT)监视器、投影仪、或其它显示装置)、打印机、外部储存器、或任何其它输出装置。(多个)输出装置的一个或多个可以与(多个)输入装置相同或不同。计算系统(400)可经由网络接口连接(未示出)连接到网络(412)(例如,局域网(LAN)、诸如因特网的广域网(WAN)、移动网络、或任何其它类型网络)。(多个)输入和输出装置可本地或远程(例如,经由网络(412))连接到(多个)计算机处理器(402)、存储器(404)、和(多个)储存装置(406)。存在许多不同类型的计算系统,并且前述(多个)输入和输出装置可采取其它形式。
执行本发明的实施例的计算机可读程序代码的形式的软件指令可被全部或部分、暂时或永久、存储在非瞬时计算机可读介质上,诸如CD、DVD、储存装置、盘、带、闪速存储器、物理存储器、或任何其它计算机可读储存介质上。特别是,软件指令可对应于计算机可读程序代码,所述计算机可读程序代码当由(多个)处理器运行时,被配置为执行本发明的实施例。
此外,前述计算系统(400)的一个或多个元素可位于远程地点并通过网络(412)连接到其它元素。此外,本发明的一个或多个实施例可在具有多个节点的分布系统上实现,其中本发明的每一部分可位于分布系统内的不同节点上。在本发明的一个实施例中,该节点对应于不同计算装置。作为选择,该节点可对应于具有关联物理存储器的计算机处理器。该节点可作为选择对应于具有共享存储器和/或资源的计算机处理器或计算机处理器的微内核。
尽管已针对有限数目实施例描述了本发明,但是具有该公开的权益的本领域技术人员将理解的是,能设计其它实施例,而不脱离这里公开的本发明的范围。因此,本发明的范围应仅由所附权利要求限制。

Claims (20)

1.一种用于图像处理的方法,包括:
获得包括表格的图像;
标识与图像中的表格对应的第一线条、第一线条的第一置信值、和第一线条的第一角度;
启动与多个角度对应的多个角度组;
基于所述第一置信值计算环绕第一角度的窗口内的多个角度组的第一子集的第一多个组值;
将所述第一多个组值添加到所述多个角度组的第一子集;
标识所述多个角度组中的包括最大组值的角度组;和
基于包括最大组值的角度组旋转图像。
2.根据权利要求1的方法,还包括:
标识与图像中的表格对应的第二线条、第二线条的第二置信值、和第二线条的第二角度;
基于所述第二置信值计算环绕第二角度的窗口内的多个角度组的第二子集的第二多个组值;和
在标识具有最大组值的角度组之前,将所述第二多个组值添加到所述多个角度组的第二子集。
3.根据权利要求2的方法,还包括:
标识与图像中的表格对应的第三线条、第三线条的第三置信值、和第三线条的第三角度;
比较第三置信值和阈值;和
响应于第三置信值低于阈值丢弃第三线条。
4.根据权利要求1到3中的任一项的方法,还包括:
在标识第一线条之前将图像转换为掩模,其中所述表格是手绘的。
5.根据权利要求1到3中的任一项的方法,其中标识第一线条、第一置信值、和第一角度包括对图像应用霍夫变换。
6.根据权利要求1到3中的任一项的方法,其中计算第一多个组值包括:
计算多个角度组的第一子集的多个组置信值,
其中所述多个组置信值基于环绕第一角度的窗口的尺寸、以及所述多个角度组的第一子集和第一角度之间的多个差来确定;和
将所述多个组置信值的每一个与第一置信值的平方相乘。
7.根据权利要求6的方法,其中所述环绕第一角度的窗口从第一角度沿着每一方向延伸5度。
8.根据权利要求1到3中的任一项的方法,还包括:
在旋转图像之后对表格内的文本执行光学字符识别OCR。
9.一种图像处理装置,包括:
用于获得包括表格的图像的部件;
用于标识与图像中的表格对应的第一线条、第一线条的第一置信值、和第一线条的第一角度的部件;
用于启动与多个角度对应的多个角度组的部件;
用于基于所述第一置信值计算环绕第一角度的窗口内的多个角度组的第一子集的第一多个组值的部件;
用于将所述第一多个组值添加到所述多个角度组的第一子集的部件;
用于标识所述多个角度组中的包括最大组值的角度组的部件;和
用于基于包括最大组值的角度组旋转图像的部件。
10.根据权利要求9的图像处理装置,还包括:
用于标识与图像中的表格对应的第二线条、第二线条的第二置信值、和第二线条的第二角度的部件;
用于基于所述第二置信值计算环绕第二角度的窗口内的多个角度组的第二子集的第二多个组值的部件;和
用于在标识具有最大组值的角度组之前将所述第二多个组值添加到所述多个角度组的第二子集的部件。
11.根据权利要求10的图像处理装置,还包括:
用于标识与图像中的表格对应的第三线条、第三线条的第三置信值、和第三线条的第三角度的部件;
用于比较第三置信值和阈值的部件;和
用于响应于第三置信值低于阈值丢弃第三线条的部件。
12.根据权利要求9到11中的任一项的图像处理装置,还包括:
用于在标识第一线条之前将图像转换为掩模的部件,
其中所述表格是手绘的。
13.根据权利要求9到11中的任一项的图像处理装置,其中用于标识第一线条、第一置信值、和第一角度的部件包括对图像应用霍夫变换。
14.根据权利要求9到11中的任一项的图像处理装置,其中所述用于基于所述第一置信值计算环绕第一角度的窗口内的多个角度组的第一子集的第一多个组值的部件包括:
用于计算所述多个角度组的第一子集的多个组置信值的部件,
其中所述多个组置信值基于所述环绕第一角度的窗口的尺寸、以及所述多个角度组的第一子集和第一角度之间的多个差来确定;和
将所述多个组置信值的每一个与第一置信值的平方相乘。
15.根据权利要求14的图像处理装置,其中所述环绕第一角度的窗口从第一角度沿着每一方向延伸5度。
16.一种用于图像处理的系统,包括:
缓冲器,存储包括表格的图像;
线条提取器:
标识与图像中的表格对应的第一线条、第一线条的第一置信值、和第一线条的第一角度;和
标识与图像中的表格对应的第二线条、第二线条的第二置信值、和第二线条的第二角度;
角度组引擎,包括多个组:
基于所述第一置信值计算环绕第一角度的窗口内的多个角度组的第一子集的第一多个组值;
基于所述第二置信值计算环绕第二角度的窗口内的多个角度组的第二子集的第二多个组值;和
将所述第一多个组值添加到所述多个角度组的第一子集,并将所述第二多个组值添加到所述多个角度组的第二子集;和
表格引擎,用于基于包括最大组值的角度组旋转图像。
17.根据权利要求16的系统,其中所述线条提取器在标识第一线条之前进一步将图像转换为掩模,并且其中所述表格是手绘的。
18.根据权利要求16或17的系统,其中计算第一多个组值包括:
计算所述多个角度组的第一子集的第一多个组置信值,
其中所述多个组置信值基于所述环绕第一角度的窗口的尺寸、以及所述多个角度组的第一子集和第一角度之间的多个差来确定;和
将所述多个组置信值的每一个与第一置信值的平方相乘。
19.根据权利要求18的系统,其中,所述环绕第一角度的窗口从第一角度沿着每一方向延伸5度。
20.根据权利要求16或17的系统,其中所述表格引擎在旋转图像之后进一步对表格中的文本执行光学字符识别。
CN201611060614.4A 2015-11-25 2016-11-25 偏移图像中的旋转的表格 Active CN107066433B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US14/952,691 2015-11-25
US14/952,691 US9865038B2 (en) 2015-11-25 2015-11-25 Offsetting rotated tables in images

Publications (2)

Publication Number Publication Date
CN107066433A CN107066433A (zh) 2017-08-18
CN107066433B true CN107066433B (zh) 2020-05-08

Family

ID=58720903

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611060614.4A Active CN107066433B (zh) 2015-11-25 2016-11-25 偏移图像中的旋转的表格

Country Status (3)

Country Link
US (1) US9865038B2 (zh)
JP (1) JP6778586B2 (zh)
CN (1) CN107066433B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9865038B2 (en) * 2015-11-25 2018-01-09 Konica Minolta Laboratory U.S.A., Inc. Offsetting rotated tables in images
US10395378B2 (en) * 2016-07-15 2019-08-27 Samsung Electronics Co., Ltd. Detecting periodic patterns and aperture problems for motion estimation
US10452952B2 (en) * 2017-06-30 2019-10-22 Konica Minolta Laboratory U.S.A., Inc. Typesetness score for a table
US10331949B2 (en) * 2017-07-25 2019-06-25 Konica Minolta Laboratory U.S.A., Inc. Splitting merged table cells
US10679049B2 (en) * 2017-09-29 2020-06-09 Konica Minolta Laboratory U.S.A., Inc. Identifying hand drawn tables
CN110135217B (zh) * 2018-02-02 2021-07-23 兴业数字金融服务(上海)股份有限公司 用于识别图像中的表格内的字符的方法和装置
CN110163205B (zh) * 2019-05-06 2021-05-28 网易有道信息技术(北京)有限公司 图像处理方法、装置、介质和计算设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101051305A (zh) * 2006-04-03 2007-10-10 株式会社东芝 用于光学字符识别的页单输入设备、页单以及相关程序
CN102279926A (zh) * 2010-06-09 2011-12-14 微软公司 光学字符识别中的技术
CN103258198A (zh) * 2013-04-26 2013-08-21 四川大学 一种表格文档图像中字符提取方法
WO2014064989A1 (ja) * 2012-10-24 2014-05-01 本田技研工業株式会社 板状ワークのセンターリング装置
KR101408426B1 (ko) * 2010-08-31 2014-06-17 가부시키가이샤 히타치 죠호 츠우신 엔지니어링 화상 보정 장치, 보정 화상 생성 방법, 보정 테이블 생성 장치, 보정 테이블 생성 방법, 보정 테이블 생성 프로그램을 기록한 컴퓨터 판독가능한 기록 매체 및 보정 화상 생성 프로그램을 기록한 컴퓨터 판독가능한 기록 매체

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5680479A (en) * 1992-04-24 1997-10-21 Canon Kabushiki Kaisha Method and apparatus for character recognition
JPH06195462A (ja) * 1992-12-22 1994-07-15 Fujitsu Ltd 画像の傾き角度計測方式
JPH0844822A (ja) * 1994-08-03 1996-02-16 Matsushita Electric Ind Co Ltd 文字認識装置
JP4064677B2 (ja) * 2002-01-31 2008-03-19 株式会社リコー 画像処理装置、画像処理方法、およびその方法をコンピュータに実行させるプログラム
US8526036B2 (en) * 2008-01-17 2013-09-03 Konica Minolta Laboratory U.S.A., Inc. Systems and methods for print resource management
US8634645B2 (en) * 2008-03-28 2014-01-21 Smart Technologies Ulc Method and tool for recognizing a hand-drawn table
CN103577817B (zh) * 2012-07-24 2017-03-01 阿里巴巴集团控股有限公司 表单识别方法与装置
US9466092B2 (en) * 2013-11-27 2016-10-11 Microsoft Technology Licensing, Llc Content-aware image rotation
US9621765B2 (en) * 2015-07-06 2017-04-11 Konica Minolta Laboratory U.S.A., Inc. Method for supporting color conversion on premultiplied data
US9865038B2 (en) * 2015-11-25 2018-01-09 Konica Minolta Laboratory U.S.A., Inc. Offsetting rotated tables in images
US9697423B1 (en) * 2015-12-31 2017-07-04 Konica Minolta Laboratory U.S.A., Inc. Identifying the lines of a table

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101051305A (zh) * 2006-04-03 2007-10-10 株式会社东芝 用于光学字符识别的页单输入设备、页单以及相关程序
CN102279926A (zh) * 2010-06-09 2011-12-14 微软公司 光学字符识别中的技术
KR101408426B1 (ko) * 2010-08-31 2014-06-17 가부시키가이샤 히타치 죠호 츠우신 엔지니어링 화상 보정 장치, 보정 화상 생성 방법, 보정 테이블 생성 장치, 보정 테이블 생성 방법, 보정 테이블 생성 프로그램을 기록한 컴퓨터 판독가능한 기록 매체 및 보정 화상 생성 프로그램을 기록한 컴퓨터 판독가능한 기록 매체
WO2014064989A1 (ja) * 2012-10-24 2014-05-01 本田技研工業株式会社 板状ワークのセンターリング装置
CN103258198A (zh) * 2013-04-26 2013-08-21 四川大学 一种表格文档图像中字符提取方法

Also Published As

Publication number Publication date
JP6778586B2 (ja) 2020-11-04
JP2017107552A (ja) 2017-06-15
US20170148140A1 (en) 2017-05-25
CN107066433A (zh) 2017-08-18
US9865038B2 (en) 2018-01-09

Similar Documents

Publication Publication Date Title
CN107066433B (zh) 偏移图像中的旋转的表格
US9697423B1 (en) Identifying the lines of a table
CN110555795B (zh) 高解析度风格迁移
US11275961B2 (en) Character image processing method and apparatus, device, and storage medium
US9076205B2 (en) Edge direction and curve based image de-blurring
US9842251B2 (en) Bulleted lists
CN107992869B (zh) 用于倾斜文字校正的方法、装置及电子设备
US9824267B2 (en) Writing board detection and correction
US10083218B1 (en) Repairing tables
JP6079449B2 (ja) 画像におけるオブジェクトのエッジを抽出する装置、方法及び電子設備
US10163004B2 (en) Inferring stroke information from an image
US10452952B2 (en) Typesetness score for a table
US9785856B2 (en) Repairing holes in images
CN113033563B (zh) 文本分割方法、装置、电子设备及存储介质
US10157311B2 (en) Detecting arrows within images
US10268920B2 (en) Detection of near rectangular cells
US9940698B1 (en) Cleaning writing boards based on strokes
CN113673522B (zh) 文本图像的倾斜角度检测方法、装置、设备及存储介质
US20180247149A1 (en) Inferring stroke information from an image
CN112053282A (zh) 识别分辨率的设置方法、系统、设备及存储介质
JP2018152059A (ja) 画像中の文字ストローク情報の推定
JP2010182166A (ja) 画像処理装置および画像処理方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant