CN102289667A - 对经历光学字符识别(ocr)过程的文本文档中出现的错误的用户纠正 - Google Patents

对经历光学字符识别(ocr)过程的文本文档中出现的错误的用户纠正 Download PDF

Info

Publication number
CN102289667A
CN102289667A CN2011101379134A CN201110137913A CN102289667A CN 102289667 A CN102289667 A CN 102289667A CN 2011101379134 A CN2011101379134 A CN 2011101379134A CN 201110137913 A CN201110137913 A CN 201110137913A CN 102289667 A CN102289667 A CN 102289667A
Authority
CN
China
Prior art keywords
user
text
assembly
mistake
error
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2011101379134A
Other languages
English (en)
Other versions
CN102289667B (zh
Inventor
B·拉达科维奇
M·武格代利亚
N·托迪奇
A·乌泽拉茨
B·德雷舍维奇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Technology Licensing LLC
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of CN102289667A publication Critical patent/CN102289667A/zh
Application granted granted Critical
Publication of CN102289667B publication Critical patent/CN102289667B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/98Detection or correction of errors, e.g. by rescanning the pattern or by human intervention; Evaluation of the quality of the acquired patterns
    • G06V10/987Detection or correction of errors, e.g. by rescanning the pattern or by human intervention; Evaluation of the quality of the acquired patterns with the intervention of an operator

Landscapes

  • Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Character Discrimination (AREA)
  • Character Input (AREA)

Abstract

本发明涉及对经历光学字符识别(OCR)过程的文本文档中出现的错误的用户纠正。通过经历OCR过程来创建图像文档的电子模型。电子模型包括图像文档的已经由OCR过程中多个顺序执行的阶段的每一个所确定的元素(例如,单词、文本行、段落、图像)。电子模型充当由处理该图像文档的前一阶段提供给各个阶段的输入信息。向用户呈现图形用户界面,使用户能提供对文档中出现的错误表征的项进行纠正的用户输入数据。基于用户输入数据,产生了引起错误表征的项的初始错误的处理阶段对该初始错误进行纠正。然后,该阶段之后的OCR过程的各阶段对由于初始错误而在它们的相应阶段中产生的随之发生的错误进行纠正。

Description

对经历光学字符识别(OCR)过程的文本文档中出现的错误的用户纠正
技术领域
本发明涉及光学字符识别过程,尤其涉及光学字符识别过程中的错误纠正。
背景技术
光学字符识别(OCR)是一般以标准的编码方案对文本的图像到作为机器可编辑文本的数字形式的基于计算机的转换。这一过程消除了将文档手动键入计算机系统的需求。由于扫描过程所导致的较差图像质量、非理想性等可引发多个不同问题。例如,常规OCR引擎可被耦合到扫描文本的页面的平板式扫描仪。由于页面被放置于与扫描仪的扫描面齐平,因此扫描仪所生成的图像通常展示出平坦的对比度和照明度、减少的歪斜和失真、以及高的分辨率。由此,OCR引擎可方便地将图像中的文本转换成机器可编辑的文本。然而,当图像对于对比度、照明度、歪斜等而质量较低时,由于图像的较复杂的处理,OCR引擎的性能可能会降级并且处理时间可能会增加。例如,当图像是从书中获取时或者当由基于成像器的扫描仪生成时,这可能是该情况,因为在这些情况下,文本/图像是从一距离、从变化的方向、以及在变化的照明中扫描的。即使扫描过程的性能是良好的,当相对低质量的文本的页面正被扫描时,OCR引擎的性能也可能会降级。因而,一般需要许多单独的处理步骤来以相对高的质量执行OCR。
尽管OCR过程中的改进,仍会出现错误,诸如错误识别的单词或字符、段落、文本行或页面布局的其他方面的错误标识。在各个处理阶段完成时,可以给予用户标识和纠正在OCR过程期间出现的错误的机会。用户一般需要手动地纠正每一个错误,即使错误之一传播通过OCR过程并引起了多个其他错误。每一单独错误的手动纠正在用户方面来说会是耗时且令人生厌的过程。
发明内容
向用户给予在输入文档经历OCR过程之后对其作出纠正的机会。这种纠正可以包括错误识别的字符或单词、错误对齐的栏、错误识别的文本或图像区域等。OCR过程一般进行多个阶段,该多个阶段以顺序的或流水线的方式处理输入文档。在用户纠正了错误识别的或错误表征的项(例如,错误表征的文本)之后,负责错误表征的处理阶段就纠正引起该错误表征的底层错误(例如,过大的单词边界框)。然后,OCR过程中的每一后续处理阶段尝试纠正在其相应的阶段中由初始错误引起的任何随之发生的错误。当然,在产生初始错误的阶段之前的处理阶段没有需要纠正的错误。这样,错误的纠正就在OCR处理流水线中传播。也就是,在产生初始错误的阶段之后的每一个阶段都或者递增地或者完全地重新计算其输出,因为其输入已经在前一阶段中被纠正。结果,用户不需要纠正文档中已经在OCR过程期间被错误表征的每一项。
在一种实现中,通过经历OCR过程来创建图像文档的电子模型。电子模型包括图像文档的已经由OCR过程中多个顺序执行的阶段的每一个所确定的元素(例如,单词、文本行、段落、图像)。电子模型充当由处理该图像文档的前一阶段提供给各个阶段的输入信息。向用户呈现图形用户界面,使用户能提供对文档中出现的错误表征的项进行纠正的用户输入数据。基于用户输入数据,产生了引起错误表征的项的初始错误的处理阶段对该初始错误进行纠正。然后,该阶段之后的OCR过程的阶段对由于初始错误而在它们的相应阶段中产生的任何随之发生的错误进行纠正。
提供本发明内容以便以简化形式介绍将在以下的详细描述中进一步描述的一些概念。本发明内容并不旨在标识出所要求保护的主题的关键特征或必要特征,也不旨在用于帮助确定所要求保护的主题的范围。
附图说明
图1示出了用于对文本图像执行光学字符识别(OCR)的系统的一个说明性示例。
图2是OCR引擎20的一个特定示例的高层逻辑图。
图3示出其中标记为区域1-8的文本区域已经由OCR标识的文本文档。
图4示出可由错误纠正组件提供给用户的图形用户界面的一个示例。
图5是示出用于纠正文档的文本图像的方法的一个示例的流程图。
具体实施方式
图1示出了用于对文本图像执行光学字符识别(OCR)的系统5的一个说明性示例。系统5包括生成文档15的图像的数据捕捉装置(例如,扫描仪10)。扫描仪10可以是基于图像的扫描仪,它利用电荷耦合器件作为图像传感器用于生成图像。扫描仪10处理图像以生成输入数据,并且将输入数据发送给处理装置(例如OCR引擎20)以供图像内的字符识别。在该具体示例中,将OCR引擎20合并到扫描仪10中。然而,在其他示例中,OCR引擎20可以是分开的单元,诸如独立单元或被合并到诸如PC、服务器之类的另一设备中的单元。
图2是OCR引擎20的一个特定示例的高层逻辑图。在该例中,OCR引擎被配置为具有以下组件的应用:图像捕捉组件30,分段组件40、读次序组件50、文本检测组件60、段落检测组件70、错误纠正组件80和图形用户界面(GUI)组件90。然而,应当注意,图2仅仅表示了OCR引擎的一个抽象逻辑体系结构,其元素通常用硬件、软件、固件或它们的任何组合来实现。此外,在这种体系结构的其他例子中,所采用的组件的数量和/或类型、以及检测和识别各种文本特征的次序可能不同。
图像捕捉组件30用于例如通过对置于从传真机或扫描仪接收到的存储文件夹中的输入进行自动处理,来捕捉图像。图像捕捉模块30可以作为用于从用户的图像捕捉数据的OCR引擎的主要部分,或者它可以作为单独的组件或者用户的其他文档成像和文档管理应用的模块。分段组件40检测文档上的文本和图像区域,并且定位单词位置作为第一近似。读次序组件50把单词排列到文本区域中,并且确定这些区域的正确次序。文本识别组件60识别或标识之前已被检测的单词,并且计算关于各个单词和文本行的文本属性。段落检测组件70将已经在文本区域中被标识的文本行排列成段落,并且计算诸如段落是左对齐、右对齐还是居中对齐等段落属性。如以下更详细描述的,错误纠正组件80在文档经由GUI组件90经历了OCR之后允许用户纠正文档中的错误。
无论OCR引擎的详细体系结构如何,OCR过程一般进行多个阶段,该多个阶段以顺序的或流水线的方式处理输入文档。例如,在图2所示的例子中,段落检测在文本识别之后发生,文本识别在读次序确定之后发生,而读次序确定在分段过程之后发生。每一个后续的组件把前一组件提供的输出用作其输入。结果,一个组件中产生的错误会混合到后续组件中,导致额外的错误。
每个组件的输入数据可以被表示为电存储的存储器模型。存储器模型存储文档的各个元素,包括例如:各个页面、文本区域(多栏文本页面中的各栏、图像标题)、图像区域、段落、文本行和单词。存储器模型的这些元素的每一个都可以包含诸如边界框坐标、(单词的)文本、字体特征、图像等属性。OCR引擎的每个组件使用存储器模型作为其输入,并且提供一输出,在该输出中,存储器模型通过例如添加新元素或通过向当前现有的元素添加新属性来改变(一般被丰富)。
在OCR引擎的一个组件中产生的初始错误可以以两种不同的方式被增加到后续组件中的额外错误中。第一,由于OCR过程的行为是确定性的,因此它一般不止一次地作出同一种类型的错误,一般是每当在输入文档中找到有问题的模式时。例如,如果在文档中使用了某一非常特殊的字体,字符“8”可能被识别为字符“s”,该错误最有可能在每次出现字符“8”时重复。类似地,如果实际上是项列表的段落被错误识别为标准文本时,同一错误也会对文档中的其他列表产生。
第二,初始错误可能倍增,因为后续组件依赖于从前一组件获得的不正确信息,从而引入新的错误。将结合图3说明这类错误传播的例子。图3示出其中标记为区域1-8的文本区域已经由OCR标识的文本文档。在该例中,在文档的扩大部分的圆周区域内示出的少量污迹被错误标识为文本,造成与圆周重叠的单词边界框过大。由于这种错误标识,读次序组件把文本区域6标识为宽度过大,在文本区域4和7间以及在文本区域5和8之间延伸。结果,标识了五个文本区域(区域4-8),而实际上读次序组件应该仅仅正确地标识两个文本区域,一个对应于由区域4、区域6的左半和区域7所所定义的栏,另一个对应于由区域5、区域6的右半和区域8所定义的另一栏。
首次出现的错误将被称为初始错误,诸如上例中文本污迹的错误识别。从初始错误产生的后续错误将被称为随之发生的错误,诸如上例中文本区域的错误表征。
如下详述,向用户给予在输入文档经历OCR过程之后对其作出纠正的机会。这种纠正可以包括错误识别的字符或单词、错误对齐的栏、错误识别的文本或图像区域等。一旦负责错误表征(例如,错误表征的文本)的处理阶段纠正了造成该错误表征的底层错误(例如,过大的单词边界框),则每一后续处理阶段就尝试纠正它们相应的阶段中由初始错误造成的任何随之发生的错误。当然,在产生初始错误的阶段之前的处理阶段没有需要纠正的错误。这样,错误的纠正就在OCR处理流水线中传播。也就是说,每一后续阶段或者递增地或者完全地重新计算其输出,因为其输入已经在前一阶段中被纠正。结果,用户不需要纠正文档中已经在OCR过程期间被错误表征的每一项。
应当注意,由于用户一般不知道造成错误表征的底层错误,因此用户并不直接纠正错误本身,而仅仅纠正错误的结果,该错误结果自身展现为错误表征的项。因此,用户所执行的纠正仅仅充当OCR引擎可用来标识实际错误的提示或建议。
除了纠正随之发生的错误之外,负责初始错误的阶段或组件尝试向纠正学习,并且试图在适当时候自动地重新应用纠正。例如,在上例中,如果用户已经表明字符“8”已被错误表征为字符“s”,则该错误可能对于字符“8”的许多出现而发生。负责的组件因此会尝试纠正该错误的类似实例。
图4a示出可由GUI组件90提供给用户的图形用户界面400的一个示例。当然,该界面仅仅是用来说明由OCR引擎的各个组件执行的错误纠正过程的这种界面的一个特定例子。更一般地,可以向用户提供任何适当的界面,所述界面提供工具以使他或她来表示在OCR过程期间发生的错误表征。
图4所示的示例性GUI 400向用户请求两个信息片段以实现纠正过程。首先,请求用户定义或分类错误类型。该信息可以经由GUI以任何方便的方式被纠正组件所接收。在图4a的例子中,用户经由下拉菜单410从一系列预先定义的错误类别中选择被提供给用户的类别。这种预先定义的错误类别可以包括,例如,文本区域错误、段落区域错误、段落结尾错误、文本行错误、单词错误、图像区域错误等。
如果文本的大部分被完全忽略(例如由于低对比度),或如果所标识的文本未被正确地分类到文本区域中(例如,标题、栏、页眉、页脚、图像标题等),则可能产生文本区域错误。如果文本未被正确地分到段落中,则会产生段落区域错误。如果在文本区域(通常是栏)的结尾处不正确地检测到段落的结尾,则会产生段落结尾错误,尽管它实际继续到下一文本区域。如果文本行被完全忽略或者如果文本行未被正确地分隔(例如,两个或更多行被不正确地垂直或水平合并、或者一个行被不正确地分成两个或更多行),则会产生文本行错误。单词错误会在以下情况下产生,例如,如果标点符号缺失、如果一行未被正确地分成单词(例如,两个或更多单词被合并在一起,或者单个单词被分成两个或更多单词)、或如果一个单词的全部或部分缺失(即,未被检测)。图像区域类似于文本区域错误,并且可能在图像的全部或部分缺失时产生。其他类型的错误从图像或文本的不正确检测产生,所述不正确检测可能在例如除文本以外的内容(例如,污迹、线条)被不正确地检测为文本时出现。
用户所选择的预定义的错误类型帮助错误纠正组件标识OCR引擎的造成初始错误的组件。然而,应当注意,不止一个组件可能负责一给定错误类型。例如,文本区域错误可能指示分段组件中的(例如,因为根本未检测到文本的一部分或者因为定义了不正确的单词边界框)或读次序组件中的(例如,因为单词边界框是正确的但是单词未被正确地分类到文本区域中)初始错误。
用户为实现纠正过程而提供的另一信息片段是纠正错误表征的项的输入。图4b中的GUI示出接收到这种用户输入的一种方式。在该例中,文档被呈现在GUI的显示窗口420中。也示出在文档中的每个单词周围的单词边界框,以便于用户纠正过程(尽管在一些实现中,用户可能能够关闭边界框使它们不可见)。用户所选择的错误的分类是单词错误。在该例中,单词“plains”之后的逗号原始是缺失的。该逗号未被包括的原因是OCR引擎已经将其错误表征为单词“emotional”的一部分,使该单词被错误表征为“emotionai”。参见图4b,该错误出现的原因是,单词“emotional”周围的边界框错误地将逗号包括在单词“plains”之后。在该情况下,用户通过突出显示或以其他方式指示适当的一个或多个边界框的已被不正确检测的部分,从而纠正该错误。然后,错误检测组件如图4b所示地识别单词。然而,在图4b中,单词边界框尚未被更新以反映该变化。在图4c中,错误纠正组件识别一用户区域430(即,用户在其上作出纠正的文本图像的区域),其中用户已经重新定义了单词“plains”周围的边界框。
错误纠正组件80还定义了所关注的地带440,它包括用户区域430以及与该用户区域相交的所有单词边界框。图4d示出所关注的地带440。在该特定例子中,与用户区域相交的单词边界框包括单词“to”“plains,”和“emotional”。基于用户所指定的错误类型以及已由用户在显示窗口中重新表征的单词和标点,分段组件首先重新计算所关注地带内的连通分支(即在被表示在边空白中时组成每个字符或字母的组成部分)。然后,分段组件分析每一个连通分支相对于用户区域以及之前检测到的单词边界框的位置。如果连通分支在用户区域内的像素多于在用户区域外的像素,则该连通分支被视为属于用户区域。被认为属于用户区域内的每一个连通分支都与一新单词或与某一之前检测到的单词或行相关联。删除任何不具有与之相关联的连通分支的单词(在该情况下是原始单词“plains”)。然后更新在所关注地带内的所有元素(例如单词)的边界框,因为所述边界框可能已经丢失了它们的连通分支中的一些,或者可能接收到一个或多个新的连通分支。
在此重申,在图4b-4d所示的例子中,用户区域430包含文本“Plains,”(包括逗号),所关注的地带440被扩展到用户区域430之外以包括单词“emotional”,因为这是与用户区域相交的唯一单词边界框。在该情况下,所有连通分支将保留在它们的原始单词边界框中,除了那些在单词“Plains”中的连通分支以及随后的逗号,后两者将全部与用户在用户区域内定义的新单词相关联。由于单词“emotional”已经丢失了与逗号相关联的连通分支,因此其边界框大小被减少,并且被指定为未被识别。这样,单词会由文本识别组件重新识别。新单词“plains,”也会被指定为未被识别,因此它也会被重新识别。
概括而言,在用户纠正了用户区域中的任何错误表征的项之后,错误纠正组件80使得一个或多个新单词被创建、所关注地带内的连通分支被重新指派、边界框被重新计算、且单词被重新识别。
除了使用图4所示的当前用户输入数据以外,纠正组件还考虑到之前接收到的已经被提供用来纠正其他错误表征的项的用户输入。例如,如果前一错误类型是文本区域错误或单词错误,且如果在当前所关注地带内的某些单词或行在纠正该错误的过程期间被修改,那么在纠正当前错误时采用的标准可能更为严格。例如,现在纠正的任何错误应当维持之前的用户对错误表征的项的纠正。这种之前的用户纠正可以以多个不同的方式被维持或保持。在一例中,可以向存储器模型添加每一组件用作其输入数据的新属性。一种新属性是由OCR引擎的各组件确定的各个项元素的置信度水平。被指派给每一元素的置信度水平可以部分取决于该项是否在初始OCR过程期间被确定,或者它是否在对用户纠正错误表征的项时标识的初始或后续错误进行纠正时被确定。例如,当单词或字符由用户在纠正过程期间直接输入(或通过键入或通过从两个或多个备选项中选择)时,该单词或字符的置信度水平可以被设为最大值。
在上述例子中,用户所选择的错误类别是单词错误。可以为其他错误类别执行类似的纠正过程。例如,如果错误类别是文本区域错误,则这类错误通常比单词错误更容易纠正,因为它较不可能涉及由于相交边界框引起的问题。这是因为文本区域通常比单词或行更容易分隔。然而,如果错误涉及单词边界框的相交,则可以以上面讨论的方式来检查连通分支。更一般地,可以使用更直接的替代方式,即,仅仅检验位于显示窗口内的用户区域是否包含任何单词边界框的中心。如果用户区域不包含任何单词框中心,则可以假定该区域中没有单词。这意味着由于假定文本区域完全缺失,因此在分段组件中出现错误。在该情况下,单词检测算法被重新执行,但这次仅仅限制为用户区域,使组件能更好地确定背景色或前景色。任选地,分段组件也可以在重新执行单词检测组件时提高对色彩对比度的敏感性。另一方面,如果用户区域确实包含一个或多个单词边界框而不裁剪它们中的任一个(或者,如果用户区域包含某些单词边界框的中心),则该错误可以被视为文本区域分隔错误。也就是,单词未被正确地安排到区域中,意味着该问题在于读次序组件而非分段组件。在这一情况下,没有东西需要分段组件纠正。
如果用户所选择的预定义的错误类别是图像区域错误,则用户输入可以比图4所示方式更为复杂的方式由GUI接收。例如,可以向用户提供套索工具来定义用户区域。这样,用户可以标识不正确地部署在图像区域中的连通分支。
如果用户所选择的错误类型是文本区域错误,则初始错误可能在读次序组件中产生。读次序组件的主要任务是检测文本区域。该组件假定单词和图像边界框被正确地检测。读次序组件执行文本区域检测算法,该算法一般通过逐行地在单词间创建初始小空白矩形集合来操作。它然后尝试垂直地扩展空白矩形而不重叠任何单词边界框。这样,空白矩形的尺寸较大,并且可能与其他空白矩形合并,从而形成空白区域。高度过短(即,低于阈值高度)的空白区域被放弃,就像在其左边界或右边界不接触足够数量的文本行的那些区域。然后,文档被分成不同的文本区域,这些不同的文本区域由已经标识的空白区域隔开。
因而,读次序组件将是响应于该错误的第一个组件,显示窗口420内的单词或者完全位于用户区域内,或位于用户区域外。当用户标识文本区域错误时,读次序组件如下修改其基本的文本区域检测算法。首先,用户区域内包含的所有单词边界框都不再考虑,用户之前定义的所有区域被暂时移除。接着,执行基本的文本区域检测算法,此后添加新定义的用户区域作为另一文本区域。此外,暂时移除的区域都被添加回去。如果采用置信度水平属性,对于新定义的区域(即用户区域),它可以被设为其最大值。
如果用户所选择的错误类型是文本行错误,则执行和上述对于文本区域错误的过程类似的过程。
从用户输入学习
如上所述,负责初始错误的阶段或组件可能尝试从纠正中学习,并且在适当时自动地重新应用纠正。其他组件也可以尝试从初始错误学习。为理解这如何实现,识别出OCR引擎的各个组件基于组件计算的文档的一个或多个特征来作出许多分类决定是有用的。分类过程可以使用基于规则的或基于机器学习的算法来执行。这种分类决定的示例包括:
-决定淡色背景上的一组给定的暗色像素连通组是否应被分类为文本;
-决定两个给定的单词是否属于同一文本行(在下标、上标和标点的情况下变得困难);
-决定同一文本行内的各文本部分之间的给定空白是否是单词结束(wordbreak);
-决定在两个文本块之间的给定的水平延伸的空白条(一般有几行文本高)是否是两个分开的文本栏;
标识来自连通分支的给定干净位图的字符;
-决定给定的文本行是否表示段落的结尾;
-决定给定段落是左对齐、右对齐、两端对齐还是居中对齐;
可以在分类过程期间检查的文档特征的例子包括:一组像素的大小、中值前景/背景色彩强度之间的差异、以及这组像素和其最近的相邻组之间的距离。这些特征可以用来确定该组像素是否应该与文本相关联。可以检查一些特征来把两个单词分类为属于相同的或不同的文本行,这些特征包括:单词的高度、它们垂直重叠的量、到前一行的垂直距离等等。
在纠正过程期间,OCR引擎作出结论说,一些特征集合会导致不同的分类决定。一旦这些重分类规则已经被确定,它们就可以以多种不同的方式使用。例如,它们可以仅应用于经历OCR的文档的当前页面。在该情况下,通过搜索页面以找到重分类规则所采用的模式或特征组、然后使用重分类规则作出分类决定,从而应用重分类规则。
在一些情况下,重分类规则被限制为仅应用于当前页面,而不是将重分类规则应用于多页文档的每一页面。另一方面,如果多页文档在任何人类干预前被完全处理,则重分类规则可以应用于文档的其他页面。然而,如果用户以逐页模式工作,其中每一页在该页面经历OCR处理之后被立即纠正,则可能根据用户偏好,在后续页面的初始处理期间可能应用所述规则或可能不应用所述规则。
根据期望,重分类规则可以被应用于其他文档以及当前文档,并且可能甚至成为该OCR引擎所执行的OCR过程的永久部分。然而,这一般不会是优选的操作模式,因为格式和样式可能在各文档间显著地改变。OCR引擎一般被调谐成在大多数情况下以高准确度执行,因此,当文档遭遇到诸如单词和标点符号间的不寻常大间隔等不寻常的特征、或者在文本栏间具有极小的间隔时,重分类规则一般最为有用。在这种情况下,从纠正错误表征的项的用户输入数据学习在该文档内会是有用的,但不在其他文档中有用。因此,优选操作模式可能是仅对当前文档应用重分类规则。例如,这可以是缺省操作模式,可以向用户提供改变缺省值以便使规则也应用于其他文档的选项。
作为重分类规则的应用性的一个例子,当用户选择要求删除文本或者要求正确地定义单词、文本行或文本区域的错误类型时,分段组件可以确定一小组像素已经被错误地误归类为文本(诸如在污迹被识别为标点的情况下)。从这一纠正过程产生的重分类规则可以被应用于整个文档。举另一个例子,当一个别字符被错误识别为另一字符时产生的重分类规则可以被应用于文档中,因为这可能是每当找到同一特征组合而发生的系统错误。同样,将文本行错误分类为段落结尾或段落中间的连续行可能系统地发生,尤其对于具有不充分上下文的短段落。对如何定义段落(或通过不正确地分隔文本或通过未检测到段落的结尾)的错误进行纠正的用户输入一般会调用行重分类规则的创建,行重分类规则然后用于纠正其他段落。
随之发生的错误纠正
在特定错误的纠正期间,OCR引擎的各个组件通过改变现有元素的属性,或者通过向存储器模型添加元素或从中删除元素(例如,单词、行、区域),从而修改该模型。因此,对于其过程在OCR流水线的稍后阶段执行的组件的输入将会在错误已经在流水线的早期阶段被纠正后略微改变。后续组件或者通过完全地重新处理输入数据、或者在可能时通过仅仅重新处理已经改变的输入数据使得输出被增量地更新,从而把这种变化考虑在内。一般而言,耗时的阶段可能以增量的方式工作,而快速的和/或对于输入数据中的小变化非常敏感的组件可能完全地重新处理数据。因此,一些组件比其他组件更受执行增量更新的影响。例如,由于分段组件是流水线中的第一阶段,因此它不需要处理已经在前一阶段中编辑的输入数据。
读次序组件对于其输入数据中的变化非常敏感,因为小输入变化会急剧地改变其输出(例如,读次序可能在将单个单词边界框收缩几个像素时改变),使该组件难以增量地工作。幸运的是,读次序组件极快,因此它能够在每当有改变时重新处理所有输入数据。因而,该组件一般使用与存储器模型的当前状态相关联的数据来重新执行,存储器模型包含从用户输入产生的所有之前的改变和纠正。
在分段过程使用用户输入纠正了错误后,某些单词边界框会略微改变,可以标识完全新的单词并将其置于存储器模型中。一般而言,很少的单词会受到影响。因而,文本识别组件仅需要重新识别那些新标识的单词。(尽管当读次序组件作出纠正时一些之前识别的单词可能被移到不同的行和区域,但是这些变化不会引入对单词重新识别的需求)。因此,文本识别组件可以通过搜索由前一组件标记或以其他方式表示为需要被重新识别的单词,从而增量地工作。这是有利的,因为已知文本识别过程是缓慢的。
由于读次序组件会在文档的存储器模型中引入显著的变化,因此它一般不会使段落检测组件增量地工作。但由于段落组件一般极快,因此它在有变化时重新处理所有输入数据是方便的。因此,段落组件通过使用用户输入来纠正该组件中产生的初始错误、存储器模型的当前状态以及作为前一用户输入的结果获得的信息(或者通过用户纠正错误表征所采用的所有以前动作的列表,或者通过存储器模型中包括的其他属性,诸如置信度水平),从而作出纠正。
图5是示出用于纠正文档的文本图像的方法的一个示例的流程图。首先,在步骤510中,文档经历OCR,在OCR期间产生图像的电子模型。接着,在步骤520向用户呈现电子模型的视觉表示,使得用户能标识文本图像中任何错误表征的项。在步骤530也向用户呈现图形用户界面(GUI)。用户可以使用GUI来纠正所找到的文本的任何错误表征的项。在步骤540,经由纠正错误表征的项的GUI接收用户输入。造成错误表征的项的在OCR过程期间发生的一个或多个初始错误在步骤550得以纠正。在步骤560更新文档的电子模型以反映已经被纠正的一个或多个初始错误。最后,在步骤570,使用经更新的电子模型在产生初始错误的处理阶段之后的处理阶段中纠正随之发生的错误。
如在本申请中所使用的,术语“组件”、“模块”、“引擎”、“系统”、“装置”、“接口”等一般旨在表示计算机相关的实体,该实体可以是硬件、硬件和软件的组合、软件、或者执行中的软件。例如,组件可以是,但不限于是,在处理器上运行的进程、处理器、对象、可执行码、执行的线程、程序和/或计算机。作为说明,运行在控制器上的应用程序和控制器都可以是组件。一个或多个组件可以驻留在进程和/或执行的线程中,并且组件可以位于一个计算机内和/或分布在两个或更多的计算机之间。
此外,所要求保护的主题可以使用产生控制计算机以实现所公开的主题的软件、固件、硬件或其任意组合的标准编程和/或工程技术而被实现为方法、装置或制品。如这里所使用的术语“制品”可以包含可以从任何计算机可读的设备、载体或介质进行访问的计算机程序。例如,计算机可读介质可以包括但不限于磁存储设备(例如,硬盘、软盘、磁带...)、光盘(例如,紧致盘(CD)、数字多功能盘(DVD)底)、智能卡,以及闪存设备(例如,卡、棒、键驱动器...)。当然,本领域的技术人员将会认识到,在不背离所要求保护的主题的范围或精神的前提下可以对这一配置进行许多修改。
尽管用专门描述结构特征和/或方法动作的语言描述了主题,但是应当理解,在所附权利要求书中限定的主题并不一定局限于上述特定的特征或动作。更确切而言,上述具体特征和动作是作为实现权利要求的示例形式公开的。

Claims (15)

1.一种用于执行光学字符识别的图像处理装置,包括:
输入组件30,用于接收文档的文本图像;
分段组件40,用于检测所述文档中的文本和图像并且标识单词位置;
读次序组件50,用于把单词排列到文本区域中并且以正确的读次序来排列所述文本区域;
文本识别组件60,用于识别单词并且计算和各个单词和文本行有关的文本属性;
段落检测组件70,用于把已经在所述文本区域中标识的文本行排列到段落中;
用户界面90,用户经其提供用户输入数据,其中所述用户输入数据在经历OCR之后纠正在所述文档中出现的第一个错误表征的项;以及
错误纠正组件80,用于接收用户输入数据、并且使其中初始错误产生所造成的第一个错误表征的项的第一个组件纠正该初始错误,其中错误纠正组件还被配置成使在第一组件之后处理所述图像的各组件纠正作为初始错误的结果而产生的随之发生的错误。
2.如权利要求1所述的图像处理装置,其特征在于,所述组件30-90中的第一个还被配置成自动地纠正造成和第一错误表征的项具有相同类型的其他错误表征的项的其他错误。
3.如权利要求1所述的图像处理装置,其特征在于,所述用户界面90包括预先选择的错误类型410的菜单,用户从所述菜单中选择作为用户输入数据的部分。
4.如权利要求3所述的图像处理装置,其特征在于,所述预先选择的错误类型410包括从由文本区域错误、段落区域错误、段落结尾错误、文本行错误、单词错误和图像区域错误组成的组中选择的多个错误类型。
5.如权利要求1所述的图像处理装置,其特征在于,所述用户输入90包括第一错误类型的选择,并且至少部分基于所述第一错误类型,所述错误纠正组件80使一个或多个所选择的组件至少部分地重新执行以纠正初始错误。
6.如权利要求1所述的图像处理装置,其特征在于,所述用户界面90包括显示420,在显示420中在经历OCR之后呈现文本图像的一部分,所述用户界面90被配置成接收纠正第一错误表征的项的用户输入,并且识别和用户输入所纠正的文本图像的选择相对应的显示420的用户区域部分。
7.如权利要求1所述的图像处理装置,其特征在于,所述随之发生的错误以与用户之前纠正的错误表征的项一致的方式被纠正。
8.如权利要求1所述的图像处理装置,还包括用于存储所述图像文档的电子模型的存储器组件,其中所述电子模型包括图像文档的由组件30-90的每一个确定的元件,其中所述电子模型充当由处理所述图像文档的前一组件提供给组件30-90的每一个的输入信息。
9.如权利要求8所述的图像处理装置,其特征在于,所述错误纠正组件80使得文本识别组件60中产生的随之发生的错误通过增量地重新执行文本识别组件60以仅处理已被改变的元件而被纠正。
10.如权利要求8所述的图像处理装置,其特征在于,所述电子模型包括与元素的每一个相关联的属性,其中属性的每一个指定了与属性所关联至的相应元素相关联的置信度水平。
11.如权利要求10所述的图像处理装置,其特征在于,所述初始错误在电子模型中包括的至少一个元素中产生,其中所述纠正组件80在已经纠正初始错误后为与至少一个元素相关联的一个或多个属性的置信度水平分配一个最大值。
12.一种用于纠正已经历光学字符识别(OCR)的文本图像文档的方法,包括:
在图像文档已经历OCR过程之后接收510所述图像文档的电子模型,所述电子模型包括图像文档的已经由OCR过程中的多个顺序执行的阶段的每一个所确定的元素,其中电子模型充当由处理所述图像文档的前一阶段提供给每一个阶段的输入信息;
向用户呈现530图形用户界面,所述图像用户界面在经历OCR后接收对出现在文档中的第一错误表征的项进行纠正的用户输入数据;
至少部分基于用户输入数据,使550产生了造成第一错误表征的项的初始错误的OCR过程的第一阶段纠正所述初始错误;以及
使530所述第一阶段之后的OCR过程的各阶段对作为初始错误的结果而在它们的相应阶段中产生的随之发生的错误进行纠正。
13.如权利要求12所述的方法,其特征在于,呈现530所述图像用户界面包括:请求用户对错误表征的项所属的错误类型进行分类。
14.如权利要求12所述的方法,还包括:使第一阶段对产生和第一错误表征的项同时产生其他错误表征的项的其他错误进行纠正。
15.如权利要求12所述的方法,其特征在于,所述用户界面90包括预先选择的错误类型的菜单410,用户从所述菜单中选择作为用户输入数据的部分。
CN201110137913.4A 2010-05-17 2011-05-16 对经历光学字符识别(ocr)过程的文本文档中出现的错误的用户纠正 Active CN102289667B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US12/780,991 2010-05-17
US12/780,991 US20110280481A1 (en) 2010-05-17 2010-05-17 User correction of errors arising in a textual document undergoing optical character recognition (ocr) process

Publications (2)

Publication Number Publication Date
CN102289667A true CN102289667A (zh) 2011-12-21
CN102289667B CN102289667B (zh) 2016-01-13

Family

ID=44911814

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110137913.4A Active CN102289667B (zh) 2010-05-17 2011-05-16 对经历光学字符识别(ocr)过程的文本文档中出现的错误的用户纠正

Country Status (2)

Country Link
US (1) US20110280481A1 (zh)
CN (1) CN102289667B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106326888A (zh) * 2016-08-16 2017-01-11 北京旷视科技有限公司 图像识别方法和装置
CN106980604A (zh) * 2017-03-30 2017-07-25 理光图像技术(上海)有限公司 合同内容校阅装置
CN110222193A (zh) * 2019-05-21 2019-09-10 深圳壹账通智能科技有限公司 扫描文字修正方法、装置、计算机设备和存储介质
CN110991279A (zh) * 2019-11-20 2020-04-10 北京灵伴未来科技有限公司 文档图像分析与识别方法及系统

Families Citing this family (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8331739B1 (en) * 2009-01-21 2012-12-11 Google Inc. Efficient identification and correction of optical character recognition errors through learning in a multi-engine environment
US8600173B2 (en) 2010-01-27 2013-12-03 Dst Technologies, Inc. Contextualization of machine indeterminable information based on machine determinable information
US8218875B2 (en) * 2010-06-12 2012-07-10 Hussein Khalid Al-Omari Method and system for preprocessing an image for optical character recognition
US9659327B2 (en) * 2012-03-01 2017-05-23 Ricoh Company, Ltd. Expense report system with receipt image processing
US9245296B2 (en) 2012-03-01 2016-01-26 Ricoh Company Ltd. Expense report system with receipt image processing
US10332213B2 (en) 2012-03-01 2019-06-25 Ricoh Company, Ltd. Expense report system with receipt image processing by delegates
US9235562B1 (en) * 2012-10-02 2016-01-12 Symantec Corporation Systems and methods for transparent data loss prevention classifications
US9256592B1 (en) * 2012-11-07 2016-02-09 Amazon Technologies, Inc. System for detecting and correcting broken words
CN103942212B (zh) * 2013-01-21 2018-01-09 腾讯科技(深圳)有限公司 一种用户界面的文字检测方法及装置
JP6525523B2 (ja) * 2013-07-31 2019-06-05 キヤノン株式会社 情報処理装置、制御方法およびプログラム
US20150134555A1 (en) * 2013-11-08 2015-05-14 Tracker Corp Document error resolution
US9501853B2 (en) * 2015-01-09 2016-11-22 Adobe Systems Incorporated Providing in-line previews of a source image for aid in correcting OCR errors
US9984287B2 (en) * 2015-03-05 2018-05-29 Wipro Limited Method and image processing apparatus for performing optical character recognition (OCR) of an article
US10049268B2 (en) * 2015-03-06 2018-08-14 Kofax, Inc. Selective, user-mediated content recognition using mobile devices
US9910566B2 (en) * 2015-04-22 2018-03-06 Xerox Corporation Copy and paste operation using OCR with integrated correction application
CN106293431A (zh) * 2015-05-26 2017-01-04 富泰华工业(深圳)有限公司 手写输入识别方法、系统与电子装置
US10242277B1 (en) * 2015-07-08 2019-03-26 Amazon Technologies, Inc. Validating digital content rendering
US9760786B2 (en) * 2015-10-20 2017-09-12 Kyocera Document Solutions Inc. Method and device for revising OCR data by indexing and displaying potential error locations
KR102055747B1 (ko) * 2018-04-02 2019-12-13 주식회사 클래스큐브 수식을 포함하는 문서를 검색하는 방법, 시스템 및 비일시성의 컴퓨터 판독 가능 기록 매체
DE102018119908A1 (de) * 2018-08-16 2020-02-20 Ccs Content Conversion Specialists Gmbh System zur optischen Zeichenerkennung (OCR)
US11366968B2 (en) * 2019-07-29 2022-06-21 Intuit Inc. Region proposal networks for automated bounding box detection and text segmentation
CN112199946B (zh) * 2020-09-15 2024-05-07 北京大米科技有限公司 数据处理方法、装置、电子设备和可读存储介质
JP2022097138A (ja) * 2020-12-18 2022-06-30 富士フイルムビジネスイノベーション株式会社 情報処理装置及び情報処理プログラム
JP2022100066A (ja) * 2020-12-23 2022-07-05 富士フイルムビジネスイノベーション株式会社 情報処理装置、及び情報処理プログラム
CN115457557B (zh) * 2022-09-21 2024-03-05 惠州市学之友电子有限公司 一种扫描式翻译笔控制方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060288279A1 (en) * 2005-06-15 2006-12-21 Sherif Yacoub Computer assisted document modification
CN101458699A (zh) * 2007-12-12 2009-06-17 佳能株式会社 图像处理装置和图像处理方法
US20100086210A1 (en) * 2008-10-07 2010-04-08 International Business Machines Corporation Digitizing documents

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11102414A (ja) * 1997-07-25 1999-04-13 Kuraritec Corp ヒートマップを用いて光学式文字認識の訂正を行うための方法および装置、並びに、ocr出力の誤りを発見するための一連の命令を記録したコンピュータ読み取り可能な記録媒体

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060288279A1 (en) * 2005-06-15 2006-12-21 Sherif Yacoub Computer assisted document modification
CN101458699A (zh) * 2007-12-12 2009-06-17 佳能株式会社 图像处理装置和图像处理方法
US20100086210A1 (en) * 2008-10-07 2010-04-08 International Business Machines Corporation Digitizing documents

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106326888A (zh) * 2016-08-16 2017-01-11 北京旷视科技有限公司 图像识别方法和装置
CN106980604A (zh) * 2017-03-30 2017-07-25 理光图像技术(上海)有限公司 合同内容校阅装置
CN106980604B (zh) * 2017-03-30 2019-12-31 理光图像技术(上海)有限公司 合同内容校阅装置
CN110222193A (zh) * 2019-05-21 2019-09-10 深圳壹账通智能科技有限公司 扫描文字修正方法、装置、计算机设备和存储介质
CN110991279A (zh) * 2019-11-20 2020-04-10 北京灵伴未来科技有限公司 文档图像分析与识别方法及系统
CN110991279B (zh) * 2019-11-20 2023-08-22 北京灵伴未来科技有限公司 文档图像分析与识别方法及系统

Also Published As

Publication number Publication date
US20110280481A1 (en) 2011-11-17
CN102289667B (zh) 2016-01-13

Similar Documents

Publication Publication Date Title
CN102289667B (zh) 对经历光学字符识别(ocr)过程的文本文档中出现的错误的用户纠正
US8565474B2 (en) Paragraph recognition in an optical character recognition (OCR) process
US11182604B1 (en) Computerized recognition and extraction of tables in digitized documents
JP4347677B2 (ja) 帳票ocrプログラム、方法及び装置
US8213717B2 (en) Document processing apparatus, document processing method, recording medium and data signal
US8391607B2 (en) Image processor and computer readable medium
KR20190033451A (ko) 화상 처리 장치, 화상 처리 방법, 및 저장 매체
CN110942074A (zh) 字符切分识别方法、装置、电子设备、存储介质
JP4078009B2 (ja) 帳票における文字記録領域の検出装置、帳票における文字記録領域の検出方法、記憶媒体及び帳票フォーマット作成装置
CN101981568A (zh) 扫描方法
US11348331B2 (en) Information processing apparatus and non-transitory computer readable medium
US7844080B2 (en) Image processing system and image processing method, and computer program
US11907651B2 (en) Information processing apparatus, information processing method, and storage medium
US11710329B2 (en) Image processing apparatus with automated registration of previously encountered business forms, image processing method and storage medium therefor
US10395133B1 (en) Image box filtering for optical character recognition
US10706337B2 (en) Character recognition device, character recognition method, and recording medium
JP4518212B2 (ja) 画像処理装置及びプログラム
JP4347675B2 (ja) 帳票ocrプログラム、方法及び装置
JP2015187765A (ja) 帳票フォーマット情報登録方法及びシステム並びにプログラム
JP2021140831A (ja) 帳票画像処理システム、帳票画像処理方法、および帳票画像処理プログラム
JP4357226B2 (ja) 帳票定義装置、帳票定義方法及び帳票定義プログラム
US20230140357A1 (en) Image processing apparatus, image processing method, and non-transitory storage medium
JP2006134079A (ja) 画像処理装置及びプログラム
KR102572130B1 (ko) 문서 이미지에서 문서 양식을 추출하는 방법 및 시스템
US20230273952A1 (en) Image processing apparatus, image processing method, and storage medium

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
ASS Succession or assignment of patent right

Owner name: MICROSOFT TECHNOLOGY LICENSING LLC

Free format text: FORMER OWNER: MICROSOFT CORP.

Effective date: 20150728

C41 Transfer of patent application or patent right or utility model
TA01 Transfer of patent application right

Effective date of registration: 20150728

Address after: Washington State

Applicant after: Micro soft technique license Co., Ltd

Address before: Washington State

Applicant before: Microsoft Corp.

C14 Grant of patent or utility model
GR01 Patent grant