CN1514985A

CN1514985A - 带变体的多重表格的识别、分离和压缩

Info

Publication number: CN1514985A
Application number: CNA01822508XA
Authority: CN
Inventors: ��ά�ǵ¡��; 阿维亚德·佐特尼克
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2001-02-06
Filing date: 2001-08-16
Publication date: 2004-07-21
Anticipated expiration: 2021-08-16
Also published as: CN100483442C; DE60134271D1; KR20030076647A; EP1358622A1; US20020106128A1; WO2002063546A1; EP1358622A4; KR100523898B1; US6640009B2; EP1358622B1

Abstract

一种处理图像的方法，包括接收有相似特征的一组图像，该组包括多个类别，其中每个图像属于这些类别之一并且包含一个对它所属类别中全部图像共同的固定部分(32、34、36)以及将该图像与该类别中其他图像区别开的一个可变部分(42)。在这些图像中找出一个参考区域，在此区域中，第一个类别中的图像的固定部分(44)与第二个类别中的图像的固定部分(46)始终是不同的。根据该参考区域，这些图像被分成各个类别。

Description

带变体的多重表格的识别、分离和压缩

技术领域

一般地说，本发明涉及文档图像处理，具体地说，涉及识别预印表格文档和提取其中所填信息的方法。

背景技术

在许多文档成像系统中，大量表格被扫描到计算机中，然后由计算机处理所得到的文档图像以提取有关的信息。通常，这些表格包含预先印好的模板，其中含有已由手工填入的或以机器打印字符填入的字段。为提取已填入的信息，计算机必须首先识别模板。在本领域已知各种图像分析方法用于这些目的。一种这样的方法在美国专利5,434,933号中描述，该专利公开的内容在这里被引用作为参考。

为了精确识别字段在模板中的位置，一种通用技术是由计算机登记带有模板参考图像的每个文档图像。一旦该模板被登记，它便能被从文档图像中去除掉，只把手写的或打印的字符留在页面上它们的适当位置。例如，美国专利5,182,656、5,191,525、5,793,887以及5,631,984(它们公开的内容在这里被引用作为参考)描述了登记带有图像模板的文档图像从而从表格中提取所填信息的方法。在去除掉模板之后，留在图像中的字符通常由光学字符识别(OCR)或其他本领域已知技术进行处理。从文档图像中去掉模板在压缩图像、显著减少存储图像所需存储器容量以及减小传输图像所需带宽方面也是至关重要的。例如，美国专利6,020,972(它公开的内容在这里被引用作为参考)以及上述美国专利5,182,565描述了基于模板识别的文档图像压缩方法。对于整个一组所填表格图像，模板本身只需被存储和/或传输一次。

本技术领域已知的模板登记和去掉方法通常需要在压缩或其他处理进行之前知道该模板。计算机必须得知模板类型或能从事先已知的模板集合中选出该模板。换言之，计算机必须具有能够使用的用于它处理的每类表格的适当空模板。然而，经常发生的情况是在开始时不是所有模板或模板变化都是已知的。再有，经验表明，在大多数系统中没有单个模板用于所有表格类型，相反，要有若干个模板，而且还可能出现未预料到的模板变型，它们不能由当前用于表格识别的各种全局特性的任何组合来辨识。在本专利申请上下文中和在权利要求中，这种模板变化被称作“变体(mutant)”。

这样，在本技术领域已知的表格处理系统中，在存在这种变体的情况下，如果没有操作人员高成本地介入识别每个表格所使用的模板，通常便不可能采用去掉模板的方法。

发明内容

在本发明的优选实施例中，一个文档图像处理系统接收已填写的表格的图像，其中至少有一些是基于事先未知的模板。该系统使用本技术领域已知的任何适当的方法，自动地把这些图像排列和分类到具有相似模板特性的各组中。然而，每个这样的组可以包含多个变体模板，它们的一个或多个特性有所不同。本发明提出新的方法用于识别这些变体并相应地把每组中的图像分类到精确的子组或类中，每个具有它自己的变体模板。优选地，在其后从图像中提取出每类中的变体模板并去掉它们，从而使得能进行优化的图像压缩和其他后续处理。

为了能彼此区分给定组中的变体，该系统优选地通过组合该组中的图像，产生灰度累积图像。然后对这个累积图像进行分析，以逐个图像地把属于对所有图像共同的模板的那些区域与在其中发生变化的那些区域区分开。对这些变化作进一步分析，以确定在每个区域中它们是由于模板的变体造成的还是由于填入各单个表格中的内容造成的。如果确定在一个给定区域中的变化是由于模板变体造成的，则在该组中的图像根据它们在这一区域(这里称作参考区域)中的内容被分类到各变体子组中。通常，在一个参考区域上对原始组进行分类得到的子组其后会由于在另一个参考区域上分类而被再分成更小的子组。优选地，这一分类过程继续到基本上所有图像都已分到变体子组为止，此时每个子组有它自已的模板，该模板对该子组中的全部图像是共同的。

优选地，在完成分类之后，对每个子组从图像之一当中提取出各自的模板并从该子组中的全部图像中去掉该模板。然后这些图像由压缩、OCR和/或本技术领域已知的其他文档处理方法进行自动处理。优选地，将被提取出的模板存储在一个库中供处理后续表格时使用。由本发明优选实施例提供的对全部变体进行识别和分类的能力允许图像被有效地处理，减少在处理大量表格时所需要的存储空间和人工处理的费用。

尽管这里描述和优选实施例涉及处理表格文档图像，但本发明的原理可以类似地应用于从一组其他类型的图像中提取信息，其中在一个组中的图像包含共同的、基本上固定的部分加上单个的可变的部分。

所以，根据本发明的一个优选实施例，提供了一种处理图像的方法，包含：

接收有相似特征的一组图像，该组包括多个类别，其中每个图像属于这些类别之一并且包括一个对它所属类别中全部图像共同的固定部分以及将该图像与该类别中其他图像区别开的一个可变部分；

在这些图像中找出一个参考区域，在此区域中，第一个类别中的图像的固定部分与第二个类别中的图像的固定部分始终是不同的；以及

根据该参考区域将图像分成各个类别。

优选地，接收该组图像包括处理多个图像以确定它们的特征以及通过发现这些特征的相似性选择图像以包括在该组中。

进一步优选地，这些特征包括可由计算机识别的图像特性，而接收该组图像包括在响应这些特性的组中互相对准这些图像。在一个优选实施例中，这些图像包括表格文档图像，而图像的固定部分包括表格模板，而且这里的特性包括模板的特性。

优选地，找出参考区域包括：

把图像的多个区域分类成下列各类区域：第一类区域，在该类区域中该组中基本上全部图像都基本相同；第二类区域，在该类区域中该组中图像的一个子组基本上相同，但不是该组中全部图像都相同；以及第三类区域，在该类区域中基本上该组中全部图像都不相同；以及

选择第二类区域中的一个作为参考区域。

进一步优选地，把多个区域分类包括组合该组中的图像以产生一个累积图像并分析该累积图像以找出第二类区域。最优选地，分析累积图像包括对累积图像中的每个区域计算一个绝对阈值指出该区域亮的部分和暗的部分之间的差，以及一个反差阈值指出该区域中相邻像素之间的最小有效差值，并把绝对阈值与反差阈值的比值相对于累积图像其他区域比较高的那些区域识别与第二类区域。附加地或另外地，选择第二类区域作为参考区包括把累积图像中的各区域与该组中各图像中的相应区域加以比较，从而产生累积图像中每个区域的区配评分，并选择具有最高区配评分的一个区域作为参考区域。

进一步附加地或另外地，对图像分类包括选择子组中的一个图像作为基础图像，并从该子组中去掉该组中那些在该参考区域中与基础图像不同的图像，并对该子组中的图像重复下列步骤：对多个区域分类并选出一个第二类区域从而找出一个新的参考区域，并根据这新的参考区域对该子组中的图像进行分类。优选地，重复对多个区域分类、选出一个第二类区域和从该子组中去掉图像的步骤，直至被分类的图像的子组中基本上不会找到剩余的第二类区域为止。

在一个优选实施例中，这些图像包括表格文档图像，而图像的固定部分包括表格模板，而且第二类区域包括这样一些区域，在这些区域中该子组中图像的模板不同于不在该子组中的那些图像的模板。

优选地，找出参考区域包括找出第一参考区域，从而根据第一参考区域把含有第一类别的第一子组图像与含有第二类别的第二子组图像区分开，而且对图像分类包括在第一子组图像中再找出一个参考区域并根据这一个参考区域在第一子组中对图像分类。

在一个优选实施例中，这些图像包括表格文档图像，而固定部分包括表格模板，可变部分包括填入模板的字符，而且对图像分类包括对文档分组，从而使每类中的所有文档有基本相同的模板。优选地，该方法包括在一类中找出图像的基本上不变的部分，从而从该类图像中提取出模板。附加地或另外地，该方法包括处理这些图像从而从中去掉模板，而保留图像中的填入字符。

进一步附加地或另外地，该方法包括在对图像分类后从第一类中的图像中去掉固定部分，并在去掉固定部分之后压缩每个图像中剩余的可变部分。

根据本发明的一个优选实施例，还提供了一种处理图像的装置，包括一个图像处理器，该图像处理器被安排成：接收有相似特征的一组图像，该组包括多个类别，每个图像属于这些类别之一并且包括一个对它所属类别中全部图像共同的固定部分以及将该图像与该类别中其他图像区别开的一个可变部分；在这些图像中找出一个参考区域，在此区域中第一个类别中的图像的固定部分与第二个类别中的图像的固定部分始终是不同的；以及根据该参考区域将图像分成各个类别。

根据本发明的一个优选实施例，还提供了一种计算机软件产品，包括计算机可读介质，在其中存储程序指令，这些指令当由计算机读出时使计算机：接收有相似特征的一组图像，该组包括多个类别，每个图像属于这些类别之一并且包括一个对它所属类别中全部图像共同的固定部分以及将该图像与该类别中其他图像区别开的一个可变部分；在这些图像中找出一个参考区域，在此区域中第一个类别中的图像的固定部分与第二个类别中的图像的固定部分始终是不同的；以及根据该参考区域将图像分成各个类别。

由下文中结合附图对本发明优选实施例的详细描述，可以更充分地理解本发明。

附图说明

图1以图形示意性显示根据本发明一个优选实施例的文档图像处理系统；

图2A和2B示意性表示用于说明本发明一个优选实施例的变体表格文档；

图3是流程图，示意性说明根据本发明一个优选实施例的处理文档图像的方法；

图4是流程图，示意性说明根据本发明一个优选实施例对表格文档图像进行分类的方法；以及

图5是流程图，示意性说明根据本发明一个优选实施例识别参考区域供对一组表格文档图像分类之用的方法。

具体实施方式

图1是以图形示意性显示根据本发明的一个优选实施例的文档图像处理系统20。系统20包含扫描仪22或本技术领域已知的任何其他类型图像采集设备，它接收和扫描文档24。该文档24包含预印表格，它有一个模板，通常填入手写的、打字的或印刷的字符。该扫描仪采集文档图像并把相应的图像数据传送给表格图像处理器26，图像处理26通常包含一个适用的通用计算机。可替代地，该图像从另一个源输入到处理器中。

处理器26识别它收到的每个图像中的模板，并根据它们各自的模板对图像分组。与本领域已知的系统不同，处理器26能使用下述方法根据图像的模板对具有相似的但不完全相同的变体模板的图像组分类到子组中。然后从每个图像中去掉适当的模板，而且通常压缩该图像以存储到存储器28中和/或进行本技术领域已知的其他文档处理功能。

优选地，在处理器26上运行的软件中实现下述图像识别、分类和压缩方法。该软件可以在有形介质(如软盘或CD-ROM)上提供并加载到处理器中。可替代地，该软件可经由网络连接或其他电子链接下载到处理器中。进一步可替代的是，处理器26可以包含专用的硬连线部件或数字信号处理器，用于进行部分或全部图像处理步骤。

图2A和2B分别是格式文档24a和24b的示意图，它们对理解下文描述的本发明优选实施例是有用的。文档24a和24b是基于变体模板，它们是相似的，但不完全相同。每个表格包含一个模板，该模板由线32、框34和预印文本36以及其他图形等元素构成。线和框定义字段，它们由手工或机器填写，通常以字母数字字符填写，如在“ACCT”框中所示填入字符38。在本技术领域已知的模板识别方法中使用的文档24a和24b的相似模板元素可能会导致处理器26在开始时把这两个文档识别为属于同一模板组。

另一方面，文档24a和24b的差别在于它们各自的标志44和46，以及含有签名42的签名框40的位置。如果由处理器26把这些表格错误地识别为属于一个共同的表格，则在提取填入信息时可能会造成错误，使得必定由操作人员高成本地介入。不正确的模板识别至少将导致不完全地去掉模板，结果这些文档中至少一个的压缩图像将需要更大的存储空间。再有，当重建这个压缩图像时，它将包含错误的模板，而且在处理重建的图像时可能会发生错误。然而，在本发明的优选实施例中，处理器26能自动区分文档24a和24b的模板。

图3是流程图，示意性显示根据本发明一个优选实施例的处理文档表格图像体的方法，这些文档表格图像包括变体模板。在初始的分类步骤50，处理器26使用本技术领域已知的任何适当方法把文档分离成相似图像组，例如，该处理器可以从每个图像中提取水平线和垂直线，并基于这些线使这些图像彼此匹配。这些匹配的图像通常会被本技术领域已知的方法分类为具有相同的模板。在本发明的优选实施例中，它们只是被分类为属于同一组供进一步进行变体检验和分类。然后，在每组中的图像相互对准供其后处理。下文中将参考图4详细描述步骤50。

在步骤50之后对任何给定组中图像内容的详细分析通常会揭示出三种主要类型的区域：

类型1-在这些区域中，该组中所有图像实际上是完全相同的。这些区域是属于图像模板的区域，其中的模板从一个图像到另一个图像没有显著改变。

类型2-在这些区域中，由于在组内各图像模板中的变化使在该组中的各图像当中存在差别。在图2A和2B的例子中，标志44和46的区域便是类型2区域。

类型3-由于填入的文本，在这些区域中存在差别。

后续方法步骤的目的是区分这三类区域。当发现类型2区域时，处理器26根据这些区域中图像内容把图像分类到子组或者说变体类别中。这一分类继续下去，需要时要对子组再一进步划分，直至每个子组中只包含类型1和类型3区域，即直到已基本上消除了全部类型2区域为上。

为了组中识别类2区域，优选地，处理器26在区分步骤52找出图像中的区别区域(distinguishing area)。这些区域是这样的区域，即通过对该组中的图像进行的分析，这些区域的内容趋向于表明它们是类型2区域。然后在参考选择步骤54，把这些区别区域之一选作参考区域。这通常是这样一个区别区域，它被发现有最大量的像素属于表格模板而不是填入的内容。于是能安全地假定在参考区域中彼此匹配的图像属于同一个变体子组，而那些不匹配的图像应属于一个或多个其他子组。下文中将参考图5描述一个用于寻找区别区域和选择参考区域的优选方法。

在细分类步骤56，基于选定的参考区域，该组中的图像被分成子组。优选地，在一个图像中的该参考区域选作基础，在所有其他图像中的相应区域都与它比较。在一选定阈值内与该基础匹配的所有图像都被认为是等效的，被分类到同一个子组。在这一步骤之后留下的每个子组应比分类前的原始组含有较少的不同变体模板。然后对每个子组重复步骤52、54和56，直至再没有发现区别区域为止。在这一阶段，在任何给定子组中的全部图像可被认为构成单一等效类，共享单一模板变体。优选地，根据应用需求设置在子组中识别区别区域和匹配图像的阈值水平，以在因阈值设得太高(因而两个不等效的类可能被识别为单一子组)可能造成的误差水平和因阈值设得太低(因而单一等效类可能被分成两个)可能招致的更大的处理负担二者之间求得平衡。

在模板提取步骤58，处理器26为每个等效类构造一个模板。从一组相似图像中提取模板的一种优选方法在美国专利申请09/566,058中描述，它被转让后本专利申请的受让人，其内容在这里被纳入作为参考，简言之，处理器26对该类中的各图像进行相互比较，以提取出从一个图像到下一个图像相对不变的那部分图像，即提取这些图像的类型1部分。这一不变部分被认为是对应于共同模板，而不是对应于填入每个表格的可变信息。优选地，把该模板存储在存储器28中，供处理可能其后输入到系统20的附加图像使用。

在处理步骤60，优选地，从该类的每个图像中擦除该模板本身。本技术领域已知的任何适当方法都可用于这一目的，如在上述美国专利5,793,887中描述的那些方法。最优选地，以去掉模板所采取的方式应设计成尽可能减小对填入模板的字符的可读性造成任何有害影响。这类去掉方法在例如美国专利申请09/379,244中描述，它被转让给本专利申请的受让人，其内容在这里被纳入作为参考。在去掉模板之后，这时留在表格图像中的是可变的填入内容，通常是字母数字字符。优选地，这一内容被压缩和存储在存储器28中用于其后处理。附加地或可选地，OCR分析可应用于读每个表格中的字段内容。本技术领域已知的其他工作流程机制也可应用于分类后的图像。

图4是流程图，示意性说明根据本发明优选实施例的分类步骤50详情。如前文说明的那样，这一步骤的目的是形成相似的、相互对准(aligned)的一组图像。该方法对处理器26接收的批量填充表格图像进行操作。有可能使用先前已提取的或用其他方式提供给系统20并存储在存储器28中的模板，以足够的精度对这一批图像中的一些进行分类。在模板选择步骤62，在未被分类的图像当中，任意选择第一个表格图像作为一个模板。优选地，选择这一模板表格的特性，如线32和框34，作为识别特性，该组中的其他未被分类的表格将针对这些特性进行匹配。

在匹配步骤64，将这一批中下一个表格图像的特性与这模板特性进行比较。如果这些特性不能在预先确定的限度内与该模板匹配，则在识别失败步骤66把该表格留在未被分类的一批中。然而，如果这些特性确定与该模板匹配，则在分组步骤68利用该模板将这个表格分组。在对准步骤70，该组中的所有这些表格图像被修改以使它们与该模板对准。优选地，如在上述美国专利5,182,656或美国专利5,793,887中描述的精细配准算法被用于实现组中全部图像的精确对准，对利于其后的处理。任何图像如果由于需要例如大量的修改才能与模板匹配因而不能实现这一精细配准的话，则可以认为是被不正确地分类了，因此优选的作法是把它返回给未被分类的组。

在重复步骤72，对该批中所有剩余的未被分类的表格图像重复步骤64及其后的各步骤。在所有未被分类的图像都已经与当前模板进行了比较并分配到它的适当组之后，在最后分类步骤74，处理器26确定是否还有任何其他未被分类的图像。如果是，则过程返回到步骤62，在那里取下一个未被分类的图像作为新模板，并重复步骤64至72，直至所有图像都已被分类到各组中为止。

图5是流程图，示意性说明根据本发明一个优选实施例在一组图像中找出参考区域的详细方法。该方法对应于图3中的步骤52和54。它始于累积步骤80，其中，通过组合正在处理的组或子组中所有单个的相互配准的表格图像，形成一个累积图像。优选地，这些正在处理的图像是二值图像，而累积图像是对组中的图像按像素求和形成的。这样，在累积图像中的每个灰度像素持有该组所有图像中在那个像素处发生的黑(前景)像素个数的计数。

如前文定义的那样，累积图像被处理以识别该组图像当中的类型1、类型2和类型3区域。优选地，在阈值确定步骤82，基于确定每个区域中的一个绝对阈值T和一个反差阈值D来进行识别。这些阈值及其计算方法在美国专利申请09/519,446中被定义，该申请被转让给本专利申请的受让人，其内容这里被纳入作为参考。在本说明书的附录中给出计算T和D的一个优选方法的概要。如前文指出的那样，对以这种方式处理的图像区域的大小和数量的选择取决于应用需求，在误差水平和处理时间之间求得平衡。可选地，不同大小的区域用于该过程的不同阶段。通常没有必要处理累积图像中的所有矩形。在各矩形之间有50％重叠的覆盖图像的矩形图案一般是适当的。

在每个区域中选择绝对阈值T，从而区分该区域的亮部分和暗部分。在认为属于表格模板的类型1和类型2区域中，T应该相对高，这是因为整个组或大的子组图像中在同一位置来自同一模板的像素的积累。在属于表格填入部分的类型3区域中，绝对阈值将是低值，因为所有单个图像在这些区域中有不同的内容。

选择反差阈值D以反映相邻像素之间的最小有效差别，它指出该图像的一个特性，通常是像素之间穿过的边缘。在类型1区域中，反差阈值将是高值，这与绝对阈值相似。然而，在类型2区域中，反差阈值将比较低，因为它必须区分该区中发生的两个或更多个不同模板特性。类似地，在类型3区域中反差阈值为低值。

在阈值比比较步骤84，绝对阈值和反差阈值用于寻找图像中的区别区域。根据上述分析，预计类型2区域的绝对阈值与反差阈值之比将显著高于类型1和类型3区域。在实践中，本发明者已发现阈值比T²/D给出较好的结果，因为它减小了比值T/D在低值时对误差的敏感性。有最高阈值比的区域被选作区别区域。所选区别区域的个数仍取决于应用。通常，在处理1500×1500像素的图像时，本发明者已经发现，检验5个候选矩形，每个有100×100像素，将给出好的结果。

为了从这些区别区域中选择参考区域，在匹配步骤86，使累积图像中的每个区别区域与所考虑的组中各图像中的相应区域进行匹配。这一步骤的目的是在该组中的一个图像中选择候选区域之一，它在全部图像中的所有候选区域当中有最少数量的不属于该图像模板的黑像素(即代表填入内容的最少数量的黑像素)。于是，在此特定图像中选定的候选区域能被认为是最如实地代表该模板的区域。所以，它是用作参考区域的最佳选择。优选地，在进行这一步骤时，对该组中的每个图像中的每个区域计算一个匹配评分。对于该组中每个图像中的每个候选区域，其评分随着那个图像区域中黑像素个数逆单调变化，对于该区域，在累积图像中的相应像素具有的灰度值小于对该区域确定的绝对阈值T(因为这些像素被认为是属于该图像的填入部分)。在参考选择步骤88，具有最高匹配评分的区别区域被选作参考区域。如前文所述，这是在步骤56把组中的图像分成子组时使用的区域。

在本发明的其他实施例(在附图中未详细显示)中，可以使用其他方法识别和分类变体模板。例如，在步骤70将图像与表格模板对准通常需要某些局部图像畸变。小量畸变是正常的，以补偿印刷和扫描表格时产生的扭曲。然而，当畸变超过某个阈值时，它可作为图像和模板之间不相容的指示。这种畸变区域可以用作识别变体的区别区域。优选地，在已识别出变体子组之后，重复对准步骤以确定是否还留有任何区别区域。

作为另一个例子，在步骤60从图像中去掉模板之后，在图像中应只留下填入的文本。如果在图像中的任何地方留有基本上与模板相似的特性，如线、框或大的黑像素区，这些特性也可以表明与模板的不相容性。这样，可以在步骤52的阶段去掉一个初步的模板，而留有与模板相似特性的图像区域可以用作区别区域。对于本领域技术人员，识别变体的其他方法是显然的，并认为是在本发明的范围内。

尽管这里描述的优选实施例涉及处理表格文档24的图像，但本发明的原理可以类似地应用于从各组其他类型的图像中提取信息，其中，在一个组中的图像包含共同的、基本上固定的部分加上各个可变的部分。在这类实施例中，从大组中选出由彼此相似的图像组成的子组。根据每个子组中的一个或多个图像产生一个子组模板，并用于以子组中图像与模板的差别为基础“共同压缩(co-compress)”该子组中的图像。尽管在本技术领域已知的运动图像压缩方法也确定和使用图像差别，但这些方法只基于图像序列中相继图像之间的差别，而不是寻找图像相似性(在不一定相继的图像中寻找)作为共同压缩的基础。

这样，可以理解，上文描述的优选实施例是以举例方式叙述的，本发明不限于上文中具体显示和描述的情况。相反，本发明的范围包括上文中描述的各种特性的组合和子组合，以及它们的变化及修改，对于本领域的技术人员，在阅读前述描述之后这些都是易于想到的，而且是在先有技术中没有公开说明的。

附录

本附录提供计算优化绝对阈值T和反差阈值D的一种优选方法，该计算是基于累积图像中像素的灰度值，特别是基于相邻像素灰度值之间的间断(gap)。T和D值的选择是要增加累积图像的区域的二值化版本中将会保留在该区域的有效边缘的个数，同时减少会发生的人为边缘(artifact edge)的个数。

这样，对于本方法，我们把两个相邻像素之间的“有效间断”定义为其绝对大小大于D的间断。我们说在使用T作为二值化阈值产生的输出二值图像I(T)中表示一个间断，如果在I(T)中该间断任何一侧的像素有不同的二进制值的话。换言之，如果在输入图像(即所考虑的累积图像的一个区域)中的像素之一的灰度值大于T而其他像素的灰度值小于T，则表示具有间断。然后，优选地，通过最大化T和D的准则函数(merit function)来找出T和D的优化值，T和D的准则函数的选取要满足下列判据：

1.与输入图像中的在I(T)中表示的有效间断的个数正相关；

2.与输入图像中的在I(T)中表示的无效间断的个数负相关；以及

3.与输入图像中的在I(T)中没有表示出的有效间断的个数负相关。

为计算这样的准则函数，令N(T，D)为输入图像中的在I(T)中表示的无效间断的加权计数。优选地，这样加权，即在I(T)中表示的间断越小则它的权重越大。换言之，在N(T，D)中计数的每个间断有一个像素的灰度值大于T而另一个像素的灰度值小于T，两个灰度值之间的绝对差不大于D。令MAX表示图像中的最高灰度值，于是N(T，MAX)是在I(T)中表示的所有间断的加权计数。令G(D)为该图像中有效间断数的加权计数，即其像素灰度值之间的绝对差值大于D的那些间断的计数。于是定义如下准则：

1.good(T，D)＝N(T，MAX)-N(T，D)，在I(T)中表示的有效间断的加权计数；

2.artifacts(T，D)＝N(T，D)，在I(T)中表示的无效间断；

3.missed(T，D)＝G(G)-good(T，D)，在I(T)中丢掉的有效间断。

这些准则对应于上述三个判据。于是，对每对(T，D)的准则评分由下式给出：

Score(T，D)＝good(T，D)-artifacts(T，D)-missed(T，D)给出最高评分的一对(T，D)被选为用于所考虑区域的绝对阈值和反差预值。

上面作为举例描述了选择T和D的这一方法，其他评分和方法也可用于最优化T和D。例如，赋予间断的权重可以改变。还有，虽然这里把“间断”定义为指相邻像素，但这些像素不需要是紧邻的，而是可以有一个小的分开距离。此外，可以不需要评估图像中的所有间断，而是可以取有代表性的样本。再有，由于评估间断的目的主要是选择T和D的值，它们能在二值图像中保留真正的边缘，所以一个边缘算子，如Sobel变换，可以用于识别灰度图像中的边缘。于是，可以在对应于这些边缘的像素间断上优化T和D。在灰度图像中的其他信息线索，如V形强度曲线(“屋顶边缘”——通常在细线和文本特性中会遇到)，可以类似地用于这一目的。选择上限和下限阈值的其他方法对于本领域技术人员是显然的。

Claims

1.一种处理图像的方法，包含：

接收有相似特征的一组图像，该组包含多个类别，其中每个图像属于这些类别之一并且包含一个对它所属类列中全部图像共同的固定部分以及将该图像与该类别中其他图像区别开的一个可变部分；

根据该参考区域将图像分成各个类别。

2.根据权利要求1的方法，其中接收该组图像包含处理多个图像以确定它们的特征，以及通过发现这些特征的相似性选择图像以包括在该组中。

3.根据权利要求1的方法，其中特征包含可由计算机识别的图像特性，并且其中接收该组图像包含在响应这些特性的组中互相对准这些图像。

4.根据权利要求3的方法，其中图像包含表格文档图像，而图像的固定部分包含表格模板，而且其中特性包含模板的特性。

5.根据权利要求1的方法，其中找出参考区域包含：

选择第二类区域中的一个作为参考区域。

6.根据权利要求5的方法，其中对多个区域分类包含组合该组中的图像以产生一个累积图像并分析该累积图像以找出第二类区域。

7.根据权利要求6的方法，其中分析累积图像包含对累积图像中的每个区域计算一个绝对阈值以及一个反差阈值，该绝对阈值表示该区域的亮的部分和暗的部分之间的差，该反差阈值表示该区域中相邻像素之间的最小有效差值，并把绝对阈值与反差阈值的比值相对于累积图像其他区域比较高的那些区域识别为第二类区域。

8.根据权利要求6的方法，其中选择第二类区域作为参考区域包含把累积图像中的各区域与该组中各图像中的相应区域加以比较，从而产生累积图像中每个区域的匹配评分，并选择具有最高匹配评分的一个区域作为参考区域。

9.根据权利要求5的方法，其中对图像分类包含选择子组中的一个图像作为基础图像，并从该子组中去掉该组中那些在该参考区域中与基础图像不同的图像，并对该子组中的图像重复下列步骤：对多个区域分类并选出一个第二类区域从而找出一个新的参考区域，并根据这新的参考区域对该子组中的图像进行分类。

10.根据权利要求9的方法，其中重复对多个区域分类、选出一个第二类区域和从该子组中去掉图像的步骤，直至被分类的图像的子组中基本上不会找到剩余的第二类区域为止。

11.根据权利要求5的方法，其中图像包含表格文档图像，而图像的固定部分包含表格模板，而且其中第二类区域包含这样一些区域，在这些区域中该子组中图像的模板不同于不在该子组中的那些图像的模板。

12.根据权利要求1-11中任何一个的方法，其中找出参考区域包含找出第一参考区域，从而根据第一参考区域把含有第一类别的第一子组图像与含有第二类别的第二子组图像区分开，而且其中对图像分类包含在第一子组图像中再找出一个参考区域并根据这一个参考区域在第一子组中对图像分类。

13.根据权利要求1-11中任何一个的方法，其中这些图像包含表格文档图像，而且其中的固定部分包含表格模板，可变部分包含填入模板的字符，而且其中对图像分类包含对文档分组，从而使每类中的所有文档有基本相同的模板。

14.根据权利要求13的方法，并且包含在一类中找出图像的基本上不变的部分，从而从该类图像中提取出模板。

15.根据权利要求13的方法，并且包含处理这些图像从而从中去掉模板而保留图像中的填入字符。

16.根据权利要求1-11中任何一个的方法，而且包含在对图像分类后从第一类中的图像中去掉固定部分，并在去掉固定部分之后压缩每个图像中剩余的可变部分。

17.一种处理图像的装置，包括一个图像处理器，被安排成：接收有相似特征的一组图像，该组包括多个类别，每个图像属于这些类别之一并且包含一个对它所属类别中全部图像共同的固定部分以及将该图像与该类别中其他图像区别开的一个可变部分；在这些图像中找出一个参考区域，在此区域中第一个类别中的图像的固定部分与第二个类别中的图像的固定部分始终始是不同的；以及根据参考区域将图像分成各个类别。

18.根据权利要求17的装置，其中该处理器被安排成处理这些图像以确定它们的特征，以及通过发现这些特征的相似性选择图像以包括在该组中。

19.根据权利要求17的装置，其中特征包含可由计算机识别的图像特性，而且其中该处理器被安排成响应这些特性使该组中的图像彼此对准。

20.根据权利要求19的装置，其中图像包含表格文档图像，而图像的固定部分包含表格模板，而且其中特性包含模板的特性。

21.根据权利要求17的装置，其中为了找出参考区域，该处理器被安排成把图像的多个区域分类成下列各类区域：第一类区域，在该类区域中该组中基本上全部图像都基本相同；第二类区域，在该类区域中该组中图像的一个子组基本上相同，但不是该组中全部图像都相同；以及第三类区域，在该类区域中基本上该组中全部图像都不相同，以及选择第二类区域中的一个作为参考区域。

22.根据权利要求21的装置，其中该处理器被安排成组合该组中的图像以产生一个累积图像并分析该累积图像以找出第二类区域。

23.根据权利要求22的装置，其中该处理器被安排成对累积图像中的每个区域计算一个绝对阈值指出该区域的亮的部分和暗的部分之间的差，以及一个反差阈值指出该区域中相邻像素之间的最小有效差值，并把绝对值与反差阈值的比值相对于累积图像其他区域比较高的那些区域识别为第二类区域。

24.根据权利要求21的装置，其中该处理器被安排成把累积图像中的各区域与该组中各图像中的相应区域加以比较，从而产生累积图像中每个区域的匹配评分，并选择具有最高匹配评分的一个区域作为参考区域。

25.根据权利要求21的装置，其中该处理器被安排成选择子组中的一个图像作为基础图像，并从该子组中去掉该组中那些在该参考区域中与基础图像不同的图像，并对该子组中的图像重复下列步骤：对多个区域分类并选出一个第二类区域从而找出一个新的参考区域，并根据这新的参考区域对该子组中的图像进行分类。

26.根据权利要求25的装置，其中该处理器被安排成重复对多个区域分类、选出一个第二类区域和从该子组中去掉图像的步骤，直至被分类的图像的子组中基本上不会找到剩余的第二类区域为止。

27.根据权利要求21的装置，其中图像包含表格文档图像，而图像的固定部分包含表格模板，而且其中第二类区域包含这样一些区域，在这些区域中该子组中图像的模板不同于不在该子组中的那些图像的模板。

28.根据权利要求17-27中任何一个的装置，其中该处理器被安排成找出第一参考区域，从而根据第一参考区域把含有第一类别的第一子组图像与含有第二类别的第二子组图像区分开，而且其中对图像分类包含在第一子组图像中再找出一个参考区域并根据这一个参考区域在第一子组中对图像分类。

29.根据权利要求17-27中任何一个的装置，其中这些图像包含表格文档图像，而且其中固定部分包含表格模板，可变部分包含填入模板的字符，而且其中该处理器被安排成对文档分类，从而使每类中的所有文档有基本相同的模板。

30.根据权利要求29的装置，其中该处理器被安排成在一类中找出图像的基本上不变的部分，从而从该类图像中提取出模板。

31.根据权利要求29的装置，其中该处理器被安排成处理这些图像从而从中去掉模板而保留图像中的填入字符。

32.根据权利要求17-27中任何一个的装置，其中该处理器被安排成在对图像分类后从第一类中的图像中去掉固定部分，并在去掉固定部分之后压缩每个图像中剩余的可变部分。

33.一种计算机软件产品，包含其中存储了程序指令的计算机可读介质，这些指令当由计算机读出时使计算机：接收有相似特征的一组图像，该组包含多个类别，每个图像属于这些类别之一并且包含一个对它所属类别中全部图像共同的固定部分以及将该图像与该类别中其他图像区别开的一个可变部分；在这些图像中找出一个参考区域，在此区域中每一个类别中的图像的固定部分与第二个类别中的图像的固定部分始终是不同的；以及根据该参考区域将图像分成各个类别。