CN1734469B

CN1734469B - 处理多页文档的方法和系统

Info

Publication number: CN1734469B
Application number: CN2005100915355A
Authority: CN
Inventors: M·P·布雷纳
Original assignee: Oce Technologies BV
Current assignee: Canon Production Printing Netherlands BV
Priority date: 2004-08-10
Filing date: 2005-08-10
Publication date: 2011-01-12
Anticipated expiration: 2025-08-10
Also published as: ATE388449T1; EP1628240A3; EP1843275A2; US8564844B2; EP1628240A2; JP2006054885A; CN1734469A; US20060033967A1; EP1843275A3; JP4963809B2; EP1628240B1; DE602005005117D1; DE602005005117T2

Abstract

扫描期间的异常检测描述了扫描和处理多页文档。通过光学扫描多页文档、例如书的一系列页面生成扫描图像。处理扫描图像以生成对应于多页文档原始页面的页面图像，例如，通过校直和除去黑色边框区域。在生成提出的页面图像之后，通过检测它的图像参数，例如文本区域坐标(X1、X2、X3、X4、Y1、Y2)是否按照基于文档的统计分析的目标标准，检查是否有可能该图像包含错误。如果页面图像满足目标标准，页面图像被自动接受。然而，如果不满足，则显示页面图像(65、66)供操作员接受或调整页面图像。

Description

处理多页文档的方法和系统

技术领域

本发明涉及处理多页文档的方法，该方法包括以下步骤：接收通过光学扫描多页文档的一系列页面而得到的扫描图像，并且处理扫描图像以生成对应于多页文档的原始页面的页面图像的文件。

本发明还涉及用于处理多页文档的计算机程序产品。

本发明还涉及文档处理系统，包括用于通过光学扫描多页文档的一系列页面生成扫描图像的扫描仪单元、本地用户界面单元以及用于处理扫描图像以生成对应于多页文档的原始页面的页面图像的图像处理器单元。

背景技术

当出于存档的目的而必须扫描大的文档时，无误地扫描文档的所有页面是相当重要的，因为当以后检测到扫描错误时，可能再也得不到原始文档了。因此，必需检查每个扫描图像以保证质量。然而，检查每个扫描图像的质量需要大量的时间和努力并且给进行扫描工作的人员造成过重的负担。而且，检查大量的图像令人厌烦且容易出错。

一种规避人类检查过程的方法是使用自动系统，它自动检查每个新扫描图像，并且如果可能的话还通过相关的图像处理技术来纠正出错的图像。以下将不符合预定质量标准的扫描图像称作“异常”。

从专利申请WO98/09427得知这种方法，它描述了用于确保扫描或复制期间的质量的装置和方法。该方法包括以下步骤：送入要接受扫描的页面并且在一系列步骤中检查扫描图像的质量，包括就倾斜、双页送入/重叠、反常形状以及几何变形进行外部特征的检查、对所谓的页面内容的内部质量的检查以及对信息内容质量的检查。在每个步骤中，将测量的质量与质量极限进行比较。如果测量的质量是依照该极限或更好，如果需要的话，进行扫描图像的自动调整，调整之后，将扫描图像加到扫描文件中。如果测量的质量低于极限，请求操作员重新送入页面以进行e-扫描。

在已知的系统中，基于固定的、预编程的质量极限进行质量检查，这可能并不总是适合实际情况。如果检查是否定的，除了重新扫描没有其它选择，这迫使操作员重新送入文档。然而，可能出现被拒绝的扫描图像实际上仍然可接受或者可以通过小调整变成可接受的而根本不需要重新扫描的情况。

发明内容

本发明的目的是提供用于处理扫描图像以生成与多页文档的原始页面非常对应的一系列页面图像的方法和系统，同时为操作员提供灵活的选择用于基于质量的自动检测来纠正有限数量的页面图像。

根据本发明的第一方面，用如开头段落中所述的方法实现此目的，特征在于，该方法包括以下步骤：基于在处理扫描图像期间获得的多页文档的页面属性自动确定图像参数的目标标准、检查页面的图像参数是否是按照目标标准，并且如果是，自动接受页面图像，而如果不是，显示页面图像供操作员进行纠正动作或接受页面图像。

根据本发明的第二方面，通过用于执行该方法的计算机程序产品来实现该目的。

根据本发明的第三方面，通过在开头段落中所述的文档处理系统实现该目的，特征在于，该系统包括异常检测装置，用于基于在处理扫描图像期间获得的多页文档的页面属性确定图像参数的目标标准、检查页面的图像参数是否是按照目标标准，并且如果是，自动接受页面图像，而如果不是，显示页面图像供操作员通过用户界面单元进行纠正动作或接受页面图像。

这些措施具有以下结果。处理扫描图像产生基于检测的页面属性的页面图像。在页面图像中，扫描过程的各种结果可以在处理扫描图像的步骤中得到补偿或纠正。将页面属性和纠正与目标标准进行比较，目标标准是基于多页文档本身的统计属性来设置的。因此与文档属性相关地测量页面图像的质量，并且随后如果提出的处理的页面图像实质性地偏离目标标准，那么把页面图像称作异常。显示提出的页面图像，操作员则可能接受，或者可能拒绝、重新扫描、在纠正动作中纠正或调整页面图像。这样做的优点是，需要操作员只是检验有限数量的异常而大部分扫描图像是自动处理的。此外，操作员可以防止拒绝实际上可接受或仍可调整的图像。

特别是，将目标标准调整为文档的全局属性，这样就考虑了实际扫描的多页文档的属性。这有利地改进了异常的检测并且减少了不必要地被分类为异常的正确页面的数量。如果检测到实质性地偏离目标标准，那么检测到异常，并且只有在那时才向操作员显示出提出的图像以供核准或纠正。因此通过有选择的检查和纠正来有效地防止页面图像的最终集合中的错误。

在该方法的一个实施例中，所述确定目标标准包括基于在处理扫描图像期间获得的页面属性统计确定至少一个图像参数的目标范围。这样做的结果是基于多页文档的扫描图像的属性统计确定或调整预期值的目标范围。

在一个实施例中，图像参数包括页面尺寸或文本区域位置或大小。在整个像书或杂志之类的多页文档上，这种参数通常是一致的。基于检测图像参数(例如检测的页面尺寸)是否在预期值的目标范围之外，检测异常并向操作员显示。

在该方法的一个实施例中，所述检测图像参数是否是按照目标标准的步骤包括计算可靠性因数，该因数表明为生成页面图像进行的调整的可靠性。计算诸如校直(deskew)或旋转的处理步骤的可靠度，例如在处理期间，已经检测到提出的页面图像的结果由于不清楚的数据而不可靠。因此目标标准可包括最低的可靠性级别。

在一个实施例中，预期值包括用于多页文档的页面的预定参数的关于文档的先验知识。先验知识可以与来自多页文档的统计数据结合或用来自多页文档的统计数据进行检验。文档的一般属性通常是预期的，例如，文本排列成水平行。也可以为适当的文档应用或选择预定义的参数集，例如包括用于日语文档的垂直文本行。使用先验知识的优点是可容易检测异常，因为它们偏离常见的文档属性。

在一个实施例中，预定义的参数包括文本行取向，而处理扫描图像包括检测文本行取向并根据检测的文本行取向纠正扫描图像的偏斜。这样做的优点是，可容易纠正扫描期间的常见错误，即扫描仪上原始页面的位置倾斜。

在一个实施例中，所述方法包括建立页面图像的复合集，该复合集具有对应于多页文档中页面范围的逻辑部分。这样做的优点是，可以在页面图像的复合集中维持原始文档的逻辑子部分，例如，书中的章节。在一个特定实施例中，该方法包括从操作员接收命令，该命令用于表明扫描图像的子集构成页面图像复合集的逻辑部分。这样做的优点是，在扫描期间，在原始文档页面的连贯范围开始和/或结束的时候，操作员可以容易地输入命令。

根据本发明的设备的另外优选的实施例在所附权利要求中给出，通过引用将其公开内容结合于此。

附图说明

通过参考附图并且参考在下面描述中以示例形式说明的实施例，进一步阐述了本发明的这些方面和其他方面，它们将显而易见，

附图中：

图1示出用于处理文档的设备，

图2示出扫描多页文档的方法，

图3示出书的扫描图像的示例，

图4示出用于检测取向的文本属性，

图5示出文档处理系统的组成部分的示意图，

图6示出检测文本区位置的结果，以及

图7示出用户界面。

附图是示意性的而不是按比例绘制的。在附图中，对应于已经描述的部分的部分具有相同的参考标记。

具体实施方式

图1示出用于处理文档的设备，以示意的形式分别示出设备上的不同部分。文档通常是纸件文档，但可以包括任何类型的用于携带信息的片状物，例如，开支报表(overhead sheet)、书、图等等。用于处理文档的设备1可以只是扫描仪，但最好是还包括打印、复印或传真功能的多功能设备，例如，多用途复印机。扫描仪单元120包括配备了玻璃稿台(原始文档可以放在玻璃稿台上面)、CCD阵列以及用于使文档在CCD阵列上成像的具有可移动镜和透镜系统的成像单元的平板扫描仪。在这些条件下，CCD阵列生成电信号，这些电信号以本来已知的方式转换成数字图像数据。文档送入器110可以配备用于引入一摞文档的输入托盘111、用于沿着扫描仪单元120逐个地传输文档的传输机构(未示出)以及在扫描之后放置文档的交付托盘112。

在适当时，可以经由文档送入器放入要扫描的多页文档。例如，可以手动地将书或杂志放到稿台上。可以为多页文档提供另外的扫描辅助，例如，自动翻书页。

设备可以具有打印机单元130，例如包括本来已知的电子照相处理部件，其中，光电导介质被充电、按照数字图像数据经由LED阵列曝光以及用色粉粉末显影，然后转印色粉图像并定影在图像载体上，通常是一张纸。在供应部件140中可得到许多不同格式和取向的图像载体。带有色粉图像的图像载体被传输到完成和交付部件150，如果必要的话，完成和交付部件150将它们收集成集并装订它们，然后在交付托盘151中存放它们。

设备的控制单元由参考标记170示意示出。下面参考图5更详细地说明按照本发明处理扫描图像的功能。电缆171可以将控制单元170连到本地网络。网络可以是有线的，但也可以是部分或完全无线的。

设备具有用户界面160，例如包括设在设备上用于对其操作的操作员控制面板。用户界面配备显示器161和按键。下面描述用于控制文档处理的显示器的操作。

注意，在按照本发明的文档处理系统中，扫描可以在独立的设备中进行，而如下所述的图像处理是在具有显示器和操作员界面的处理器单元中进行的，例如用户工作站。处理器可以构建为专用硬件单元，或可以包括标准处理单元和软件程序以实现如下所述的图像处理和纠正功能。

图2示出扫描多页文档的方法。在第一阶段，所述方法开始于“开始”21，在步骤“扫描”22中光学扫描多页文档。可以对整个文档或按部分对文档进行扫描。对于每个扫描操作，通过将新的原始页面定位在扫描仪上或对于书而言是将双页面放置在扫描单元的稿台上，生成扫描图像。含两个页面的扫描图像称作双扫描图像。在特殊情况下，扫描图像可包含更多数量的子图像，以便被自动处理成分开的页面图像。可以直接处理扫描图像或者把扫描图像存储为中间文件，或者也可以把扫描图像包括在最终文件中，例如也保持原始的源材料。

在下一步骤PROC 23中，接收并处理通过扫描多页文档的一系列页面而得的扫描图像，生成对应于多页文档的原始页面的页面图像。对每个扫描图像执行一些处理步骤，用于检索一个页面图像或在双扫描图像情况下的两个页面图像。页面图像是原始页面的表示，即，扫描图像提供的扫描数据的已处理版本。下面给出若干将扫描图像处理成页面图像的示例。

按照本发明，在步骤PROC 23中的处理期间，收集统计信息STAT20，该统计信息用于基于在处理扫描图像期间得到的多页文档的页面属性确定图像参数的目标标准。例如，可以确定像纸张尺寸、文本区大小和对比度之类的属性的预期值。目标标准是基于统计确定的属性(例如平均值或中值以及基于方差的容限)的预定图像参数的预期值和容限。

应当指出，为了可靠确定统计参数，首先需要处理至少若干页面。因此，多页文档的初始部分(至少几页，但最好是文档的实质部分或甚至是整个文档)需要是可用的(即被扫描和被存储)，并且在开始如下所述的异常检测之前被处理。因此，如果多页文档的所述初始部分包括10页并且例如第一或第二扫描图像证明是异常，那么延迟10页再提供。在处理了初始部分之后，可以无延迟地测试另外的扫描图像是否有异常。在处理文档的剩余部分期间可以精细确定最初确定的统计参数。可选地，可以扫描和存储完整的多页文档，并且可以在初始运行中处理扫描图像的全集以确定统计参数，并且在第二运行中基于完整文档的统计来检测异常。

在步骤PROP 24中，通过基于检测的图像参数改进或纠正处理功能，处理步骤23生成提出的页面图像。下面给出这种处理功能的若干示例。

在下一步骤“异常”25中，确定页面图像是否是异常，即，图像页面的属性或图像参数是否实质性地偏离基于统计信息20的目标标准。通过确定图像参数是否在目标标准之外来评估页面图像。

如果页面图像不是异常，在步骤“存储”26通过自动接受页面图像继续该过程。然而，如果页面图像被检测为异常，通过如下与操作员的交互继续该过程。在步骤“显示”30中，为操作员显示页面图像。因此，操作员可以可视地检查提出的页面图像即处理的结果。如果提出的页面图像是他可接受的，在步骤“接受”31操作员命令接受提出的页面图像。如果结果不是可接受的，在步骤“调整”32中可以手动调整页面图像的处理。例如，如果提出错误的文本区域，可以剪切去扫描图像的一部分，包括原始文本的边缘，并且操作员可以调整提出的页面图像的文本区边框。随后，在步骤“存储”26中存储调整的或接受的页面图像。

最后，如果在步骤“下一个图像”27检测时处理了得到的扫描图像并且在步骤“下一次扫描”28检测时没有另外的文档页面或部分需要被扫描，那么在步骤“组合”29中，产生的页面图像被组合成原始多页文档的多页数字输出文档，例如存储在文件中。应当指出，如果过程是面向批处理的并且需要在处理开始之前扫描完整的文档，那么可以省略步骤“下一个扫描”28。在“结束”33通过交付输出文档文件结束过程。

在本方法的实施例中，在步骤PROC 23中确定图像参数的统计值的步骤包括以下内容。在扫描时，页面边缘检测器检测最强的边缘并且选择四边缘形成边框，其尺寸离页面区最近。对单独页面的与检测的纸张尺寸有关的参数和属性进行统计分析，例如，进行平均，并且对产生的原始页面的纸张尺寸特征进行估计。随后，将参数或属性的预期值存储为纸张尺寸标准以和多页文档另外的页面进行比较。

在实施例中，目标标准包括基于在处理扫描图像期间获得的页面属性的至少一个图像参数的目标范围。例如，图像参数可以包括文本区位置。在多页文档的范围内，文本区参数通常是一致的。而且更详细的特征，像页头或页脚的位置或一系列页码或章节号，可以单独检测和存储为预期值。因此可以检测缺页。

除基于扫描图像的统计分析的属性的预期值外，步骤PROC 23的处理可以包括关于文档的先验知识，即假定多页文档的页面的预定义参数或属性存在。例如，许多扫描的文档具有标准的纸张尺寸，像A4或书信。预定义参数的实例是文本行取向，即假定文本以平行于纸张边缘的方向排列成行，并且认为将文本排列为竖直字符组成的水平行。因此，从文本行的检测角看，假定原始页面是在倾斜的位置被扫描，并且必须被旋转直到文本行取向是水平的，即所谓的倾斜量为零。随后，扫描图像的处理包括检测文本行取向并根据检测的文本行取向纠正扫描图像的倾斜。

使本方法另外的实施例能够处理扫描图像中的多个原始页面，特别是书或杂志的双扫描图像的两个页面。因此，双扫描图像包含多页文档的脊并且页面位于脊的两侧。

图3示出书的扫描图像的示例。扫描图像是书的两页35和36的双扫描图像。以256个灰度级别、300DPI(每英寸点数)扫描页面，从而图的分辨率降低。扫描图像含黑色或灰色边框区38，这应该被除去，因为它不是原始页面的部分。要检测页面之间的行(称作多页文档的脊37)以分开两页面。文本区39可用在每页上，但是在一些页面上也可用于包括可以不使用、即白色的图像。可以通过页面35、36的白色区的边界来检测纸张尺寸。要注意的是，由于书的放置方式，隐藏在书脊中的纸的量可以变化。这种变化量可以通过重建在左边和右边都具有适合的页边空白的原始页面来补偿，例如，通过使文本区39独立于书脊而居中。

在图2所示的方法中，处理扫描图像的步骤PROC 23可以包含检测多页文档的脊并由单个扫描图像生成两个页面图像。原始文档的检测可以是自动的，例如，基于脊、平行的文本区的出现和/或检测的纸张尺寸并结合文本行取向。可选地，操作员可以输入命令以表明要扫描和处理脊型多页文档。

在步骤PROC 23的实施例中，处理双扫描图像包括分别对于所述两个页面的每个来检测文本行取向。注意的是，由于放置书的方式，两页面的倾斜角可以是不同的。因此，通过根据检测的文本行取向来检测和校正双扫描图像的两个部分的倾斜，对两个图像页面单独处理以使倾斜为零。

多页文档另外的属性是每页具有正确的称作竖直的取向。然而，在扫描期间，多页文档可能颠倒取向或侧向取向。在处理期间，可以检测扫描图像上的原始页面取向，并且通过适当的旋转由不同取向的扫描图像生成正立的页面图像。可以通过象顶部或底部空白、页码等页面布局属性来检测页面取向。在特定的示例中，所述检测页面取向是基于对文本的检测和对文本属性的确定。

图4示出用于检测取向的文本属性，尤其是颠倒检测。分析文本片段40，并且延伸到底部基线42以下的字符称作下超部分44，而延伸到顶部基线44以上的字符称作上超部分43。通常，对于上超部分和下超部分有个比率，例如，对于拉丁语要预期某些比率。这种先验知识可以用作起始值。在处理扫描图像期间可以统计地确定或调整特定文档的比率。应用目标比率以检测文档位图(扫描图像内部的页面区)是颠倒还是直立的，并且应用目标比率以确定所检测的取向的可靠性。每个字符分类成上超部分、下超部分或无。例如，如果完整页面的上超部分和下超部分的比率接近目标比率，那么页面是直立的。如果比率接近反的目标比率，那么页面是颠倒的并且进行180度的旋转以纠正页面。如果(纠正的)页面的比率实质性地偏离目标比率，那么检测到异常。

还可以使用字符的其它属性来检测文本取向。例如，确定所选字符(例如字符i)的取向提供文本取向参数。

图2所示的方法中的步骤“异常”25是用于检测图像参数是否在目标标准之外。目标标准可以包括如下的可靠性标准。在步骤PROC23处理各种纠正和调整期间，计算可靠性因数，该因数表明为生成页面图像进行的调整是正确的可靠性。例如，页面上的文本行的数量可能是非常小的。因此，所检测的文本行取向或字符特征可能不太可靠，并且可靠性因数会低。所检测的页面边缘可能示出灰色区，例如，由于原始的多页文档的纸张在稿台上没有完全压平。因此，通过在所检测的纸张边缘附近的灰色图像元素(像素)的出现，假定纸张边缘或取向的可靠性低，并且计算低的可靠性因数。

图5示出文档处理系统的组成部分的图。文档处理系统50具有用于通过光学扫描多页文档58的一系列页面生成扫描图像的扫描仪单元51。扫描仪单元可以是扫描和处理设备的一部分，或者可以是单独的扫描设备。文档处理系统50具有控制单元52，它耦合到扫描仪单元51、本地存储器57以及包括显示器55和诸如按键、经由光标的菜单控制、触摸屏等用户命令部分56的用户界面54。存储器可以包括固态存储器、磁盘等。处理器单元包括用于控制扫描图像的接收的扫描控制单元60、用于经由用户界面54与操作员通信的用户界面控制单元63、图像处理器单元61以及用于生成包含页面图像的输出文档59的异常检测单元62，该页面图像已经被处理并且经检查是在图像特征预期的目标范围内，并且由操作员任意调整。

图像处理器单元61处理扫描图像以生成对应于多页文档的原始页面的页面图像。异常检测单元62通过检测图像参数是否在预期值的目标范围之外来检测页面图像是否是异常。随后，如果页面图像不是异常，异常检测单元自动接受页面图像。如果页面图像是异常，在显示器55上显示页面图像，供操作员经由用户界面单元54上的用户命令部分56来接受或调整页面图像。

在系统50中，图像处理器单元可以使用先验知识或可以被安排用于确定如上所述的图像参数的预期值。具体地，预期值可以是基于在处理扫描图像期间获得的页面属性，例如平均纸张尺寸。系统50可以被安排用于建立输出文档59中的页面图像的复合集。复合集具有对应于多页文档中的页面范围的逻辑部分的结构，例如章节和附录。本地用户界面单元54具有可控部分，例如输入按钮，用于接收来自操作员的命令，该命令用于表明扫描图像的子集构成页面图像复合集的逻辑部分。在实施例中，系统包括用于打印页面图像或任何其它的所请求的打印作业的打印机单元(未示出)。

在实际的实施例中，生成输出文档的工作流程可以如下。处理多页文档(例如书)以目录开始，目录包含以逗号分隔的文本文件形式的扫描图像和表格。表格提供一系列扫描图像的控制数据并且每行具有若干字段：图像类型-彩色或黑白；左页面的页码；右页面的页码；以及包含两页的扫描图像的文件名。进行以下相继的步骤以处理扫描图像：校直每个图像并且保存局部适应的阈值化(二值)图像和灰度图像；在扫描图像上找到纸张边缘和书脊；找到左页面和右页面的文本区；检测异常参数，例如在取向或文本区选择中可能的错误；弹出用于纠正错误的用户界面；通过删除不是对应于原始多页文档的纸张区的黑色/灰色区从扫描图像裁剪出页面图像；并且最终产生文件，例如，以众所周知的出版格式，像PDF(可移植文档格式)或HTML(超文本标记语言)。

对于校直过程，例如，用在“数字图像处理，第115页，W.Niblack，Prentice Hall，1986”中描述的Niblack方法创建了二值图像。Niblack的二值化算法是局部适应方法。对于尺寸为(n*n)的窗口，计算均值和标准偏差(stdev)。窗口(n)的尺寸可以例如设定为31。如果文本比背景暗，使用下面的公式来计算中心像素的阈值：阈值＝均值(窗口)-0.18*stdev(窗口)。当不应该抖动或由于糟糕的照明或由于原始图像的老化图像而对比度低时，该算法非常有用。如果背景比字符暗，因数-0.18必须是+0.18。二值图像用于检测扫描图像各部分的角度，例如文本行或纸张边缘。二值图像还可用于OCR和文本区定位。

用于校直相对小的角度(例如，最多30度)的各种方法通常用在图像处理中并且计算角度的直方图。直方图的质量，例如，缺乏清晰的峰值，可能表明建议的角度是不可靠的时候。可以导出可靠性参数并用于异常检测。注意，校直的页面可能是颠倒的，因为初始的倾斜检测算法没意识到那点。通过使用前面的扫描图像，例如，通过附加的规则实现：如果直方图的质量太低，那么和前面的页面一样旋转该页面，可以实现改进。如果质量依然低，检测到异常，并且显示扫描供操作员决定。

作为校直的一部分，检测页面的取向，例如，如参考图4所述。可能需要旋转扫描图像或扫描图像上的各个页面90或180度以实现页面图像的直立取向以补偿有差别地定位原始多页文档。注意在一些情况下，页面需要被单独校直，或可能具有不同的取向。然而，如果扫描图像包含像图上钢笔划线之类的干扰部分，那么校直可能失败。可以通过在校直过程中生成的角度指示符的范围确定用于异常检测的可靠性因数。

检测纸张边缘和书脊可以如下进行。第一步是通过形态(morphological)滤波器除去字符，即具有9×9核的封闭操作(通过扩张然后侵蚀，基本图像开始填充小的开口)。然后，在此图像上使用Sobel滤波器(n×n核中基于像素之间差异的导数计算)，产生图像的近似导数，在白色和黑色区之间边界线上具有强分量。接下来，向图像施加固定阈值并且产生二元候选书边。尽管形态滤波器除去大多数字符从而除去错误的边，但是书中存在的图仍然会生成错误的候选书边。通过应用清除规则、例如下面关于八个相连分量的规则除去这些候选书边。如果对象的覆盖大于总面积的五分之一，并且纵横比小于10，那么对象是错误的候选纸张边缘或书脊并且被除去。这种规则还除去“滴状”对象并且保持拉长的形状或者轮廓的部分。

通常，产生的图像在书边附近和书脊附近只含有一些线。为了定位这些线，计算Hough变换并在角度域中表示图像如下。直线用于建立角度范围，并且以如下形式参数化：

ρ＝xsin(θ)+ycos(θ)

这里，ρ是距原点的垂直距离而θ是与法线之间的角度。共线点(x_i，y_i)(其中i＝1，...N)变换成(ρ，θ)平面中、相交于点(ρ，θ)的N条正弦曲线。在Hough平面中，例如，θ＝0°附近的10个极大值给出10个候选垂直边缘，而θ＝90°附近的20个极大值给出20个候选水平边缘。选择更多水平候选者，因为书脊边缘也必须被检测。从这组线中，选择四个来形成轮廓，它的尺寸最接近书的预期尺寸。从水平线的集合中，离选择的顶部和底部书边的中间最近的候选者被选择作为书脊。基于此，可以裁剪出两页，并进一步处理。如果没有合适的线可以选择，或者如果提出的裁剪页面偏离页面尺寸的目标范围太多，则检测到异常，并且显示出异常供操作员另外处理。

找到纸张区和中间的新颖方法是基于纸张的白度。校直的灰度图像用作输入，并且首先通过封闭操作除去字符对象。通过等数据算法阈值化结果以生成二进制图像，举例如下。

用于选择阈值的迭代技术在T.W.Ridler和S.Calvard的“使用迭代[sic]选择方法的图像阈值化，IEEE transaction on System，Man andCybernetics，卷SMC-8，No.8，pp.630-2，1978年8月”中描述。使用起始阈值t、例如t＝2^B-1(最大动态范围的一半)，起初将直方图分段为两部分。计算与前景像素(mf)相关联的灰度值的样本均值和与背景像素(mbkg)相关联的灰度值的样本均值。现在计算新的阈值t作为这两个样本均值的平均值。基于新的阈值重复该过程，直到阈值不再变化。

然后，二进制图像中存在的对象被标记并且选择最大的对象。如果最大的对象小于某一阈值，也选择第二大对象。然后把所有选择的对象复制到新图像。通过形态开口除去二进制对象边缘处的刺状物并且用封闭填充孔。结果图像一般只包含一个对象，测量其边界框并用作书纸张边缘。可能在最终的纸张套色区(area mask)中出现间隙(例如，由于图像未除去)，但是不影响对象的边界框。

在下一步中，确定书的中心(书脊定位)。两个图像用于那个目的：如上所述阈值化的输入图像等数据以及通过封闭得到的处理图像，例如使用11×11模式封闭并通过3×3 Sobel滤波器滤波的图像。然后，通过在等数据阈值化图像中找到那些像素转变(从黑到白或反过来)数量下降到25以下的列来计算书中心的若干候选者。从这些候选者中，通过在Sobel滤波后的图像的列中找到像素的最大和来选择中心。

已经指出，因为该步骤需要校直的原件，如果校直失败，那么该步骤(特别是书中心定位)将会失败。因此，该步骤的可靠性因数可能取决于校直步骤的参数。应用可靠性因数以检测处理的图像是否是异常并且需要操作员核准或调整。

在处理期间，可以确定扫描图像上的文本区位置。这一部分描述对齐书页的文本区所需要的步骤。计算的值可用于从扫描图像中剪切页面图像而不带任何黑色边框，或者用于指导OCR或页码识别。基本算法只使用行和列转变的数目。通过使用布局分析算法可以进行质量改进。输入图像是校直的黑白图像，在上述校直步骤中生成。

图6示出检测文本区位置的结果。该图示出扫描图像67和表明文本区位置的六个图像参数，每个参数X1、X2、X3、X4、Y1、Y2表明提出的文本区边框。两个文本区65和66由六个坐标值限定，其中，左文本区65和右文本区66的y坐标Y1、Y2是相等的，如图所示。从扫描图像的顶部开始，计算每行上的转变数目。当该数目超过15时，找到文本区的Y1。对于Y2，使用同样的方法。找到两页的文本区的左右边界可能更困难。这是因为实际上页面可能只包含几行文本。从左边第一次出现5个以上转变确定X1。位置X4由从右边开始在列中第一次出现15个以上转变、并且在更靠左边的30个像素的位置出现25个以上转变来定位。位置X2由第一次出现5个以下转变并且在更靠右边10个像素的位置出现5个以下转变来定位。搜索开始于扫描图像的宽度的1/4处，朝向右。位置X3由第一次出现5个以下转变并且在更靠左边10个像素的位置出现5个以下转变来定位。搜索开始于宽度的3/4处，朝向左。由于该简单方法，此步骤可能出错。在页面上需要至少校直的图像和一些文本。一些常见的错误是，X1、X2、X3或X4穿过某些文本，并且页码被切断，X2和X3之间有文本，或空白页面造成的影响。检错步骤通过计算表明这种错误概率的参数来检测结果是否必须被认为是异常。例如，可以检测空白页面。如果检测到X2和X3之间空间中的对象，那么X2或X3线可能被相应地移动以解决问题，或者结果可以分类为异常，要为操作员显示。

在异常检测单元中，检错步骤计算前面处理步骤的错误的可能性，例如，基于前面处理步骤产生的可靠性因数，例如，基于直方图质量的校直可靠性因数。各种参数可用于检测异常，例如纸张宽度、某些区域(文本或图)的光谱属性、不同域的质量，像角度、对象尺寸、颜色、白度或对比度等。异常检测单元还可以确定页面图像的附加属性，例如，文本区宽度的异常、关于纸张的文本区定位等。所有的参数或属性可以与处理期间收集的多页文档的统计知识比较，或者与自动假定的或操作员输入的先验知识进行比较。

在一个实施例中，通过假定关于页面文本区宽度的规律性，异常检测器能够检测文本区宽度中的异常。注意，左文本区和右文本区的顶部和/或底部可以假定相等，或者可以假定不同并分开处理。用于检测文本区宽度中异常的方法通过检测异常的公式描述，如果：

\frac{abs (p - M_{p})}{Median (abs (p - M_{p}))} > treshold

其中，p＝文本区宽度，Mp是文本区宽度的中值。因为可能有非常大的会对均值有太大影响的异常(例如，具有零宽度的空白页面)，所以使用中值。可以由操作员调整阈值以找到基本检测在文本区宽度或位置中的所有错误的实际值。在用于常规书的实际情况下，阈值14证明会给出好的结果。

由异常函数检测的可能错误随后被显示，以供操作员通过用户界面手动调整。

用户界面可以具有以下选项以接受或调整提出的页面图像，例如显示屏上的菜单或工具条功能。通过选择目前所看到的图像页面下面的按钮之一，用户可以完成一些功能：

●取向：通过在书页上画应该是水平的线或指明旋转90度或180度来手动校直。

●纸张区：选择包含纸张区的矩形

●纸张中间：选择书脊位置

●左页面：选择包含左页面的文本区的矩形

●右页面：选择包含右页面的文本区的矩形

●转到怀疑不正确的下一扫描，或者如果没有使用检错，就按顺序转到下一扫描。

在同样的图像上，所有的功能可以根据需要执行许多次。在输出文档中，操作员执行的动作可以被记录，所以复查是可能的。因此跳过标记为异常的扫描不是永久的并且可以在重新启动时提供。若用户进行手动校直，可以分开保存新的灰度图像。

最后，从扫描图像裁剪出图像页面，将任何校直考虑进去。双扫描图像在文本区边框被切割成两个页面图像，在所有边增加35个像素。这样做是为了防止差一点发生的事故导致丢失字符和图像的很少的部分。这不影响图像的对齐。最后，当从一系列扫描图像中裁剪出时，构建包含页面图像的文件。文件可以设有对应于原始多页文档的书签和页码，并且可用于可选的处理，例如自适应背景纠正或光学字符识别(OCR)。

用于处理多页文档的其它方法包括在生成的页面图像的序列中生成逻辑结构。基本上，单个多页文档的扫描图像集被转换成页面图像的复合集，这可能例如是单个文档文件。然而，原始的多页文档通常具有像章节或部分的逻辑结构或者可能包括附录。在复合集中，原始结构被转换为类似的结构，即表明对应于多页文档的页面范围的集合的逻辑部分。应当指出，可以自动检测逻辑结构，例如，通过页编号或者通过图形布局特征，例如粗体或放大字体的章节标题。

为表明逻辑结构，扫描仪或处理单元可以为操作员提供选项以在扫描的文档中创建逻辑结构。因此，该方法包括从操作员接收命令，该命令用于表明分配给页面图像序列的结构。在扫描多页文档期间可以给出命令。在扫描一部分多页文档之前和/或之后，可以按专门的按钮以表明：扫描图像的相应子集构成页面图像复合集的逻辑部分。可以自动生成书签的名称，例如，输入集号、随后是起始页码和结束页码。因此，可以有效地扫描结构化的多页文档，而同时在转换的页面图像序列中生成逻辑结构。

图7示出用户界面。用户界面单元70具有多个按钮或按键72以及显示屏71用来向操作员提供可视数据。显示器71具有足够的尺寸和分辨率以显示从扫描产生的页面图像或者至少一部分大得足以如上所述判断和调整提出的页面图像的质量的图像。

具体地说，用户界面70具有输入按钮74和启动按钮73。启动按钮还可以命名为开/关按钮。启动按钮打开或关闭任何扫描操作，而输入按钮将一部分多页文档的扫描图像附到现有集合中。各个部分的原件可以作为松散页放到自动文档送入器(ADF)中，或者可以由操作员在稿台上放置书或卷宗的连续页来手动提供。在扫描这一部分之后，操作员可以再按输入按钮以附加另一部分，并且同时在文档文件中定义刚刚关闭的部分的书签。最后通过按启动按钮结束此过程，并且将完成文档的数字版本的逻辑结构。

另外，用户界面可以设有专门的按钮或菜单功能以表明逻辑部分在双扫描图像的左页面或右页面上开始或结束。

虽然通过用于扫描书的实施例主要说明了本发明，但是应当指出，本发明适合用于任何多页文档处理。另外，除了公司环境，文档处理可以是任何规模的，例如在消费者的家中或者作为公共商业服务。此外，在生成的页面图像序列中生成逻辑结构的方法可以单独应用。应当指出，在该文档中，动词“包括”及其变化形式的使用不排除所列出的那些内容以外的其它要素或步骤的出现，并且要素前面的词“一”或“一个”不排除出现多个这类要素，任何参考符号并不限制权利要求的范围，本发明和提到的每个单元或装置可以通过合适的硬件和/或软件来实现，并且若干“装置”或“单元”可以由同样的项目来表示。另外，本发明的范围不限于实施例，并且本发明在于上述每一个新颖特征或者特征的组合。

Claims

1.一种处理多页文档的方法，所述方法包括如下步骤：

-接收通过光学扫描所述多页文档的一系列页面得到的扫描图像，

-处理所述扫描图像以生成对应于所述多页文档的原始页面的页面图像，

特征在于处理所述扫描图像的步骤包括以下步骤

-基于在处理所述扫描图像期间得出的所述多页文档的页面属性自动确定图像参数的目标标准，

-检查页面的图像参数是否按照所述目标标准，以及

--如果是，则自动接受所述页面图像，而

--如果不是，则显示所述页面图像供操作员进行纠正动作或接受所述页面图像。

2.如权利要求1所述的方法，其特征在于，所述确定目标标准包括基于在处理所述扫描图像期间得出的页面属性统计确定所述图像参数中至少一个的目标范围。

3.如权利要求2所述的方法，其特征在于，所述图像参数包括纸张尺寸或文本区域位置或大小。

4.如权利要求1或2所述的方法，其特征在于，检测所述图像参数是否按照所述目标标准的步骤包括计算可靠性因数，它表明为生成所述页面图像进行的调整的可靠性。

5.如权利要求4所述的方法，其特征在于，处理所述扫描图像的步骤包括检测页面取向，以便从不同取向的扫描图像生成正立的页面图像。

6.如权利要求5所述的方法，其特征在于，检测页面取向的步骤包括检测文本并确定所述文本的属性。

7.如权利要求6所述的方法，其特征在于，检测文本并确定所述文本的属性的步骤包括确定上超部分和下超部分的比率或者确定所选字符的取向。

8.如权利要求1到3中任一项所述的方法，其特征在于，所述图像参数包括文本行取向，并且处理所述扫描图像的步骤包括检测文本行取向并根据所检测的文本行取向来纠正所述扫描图像的倾斜。

9.如权利要求1到3中任一项所述的方法，其特征在于，所述目标标准取决于对于所述多页文档的页面的预定义参数、关于文档的先验知识。

10.如权利要求1到3中任一项所述的方法，其特征在于，处理所述扫描图像的步骤包括在多页文档中检测书脊并且从单个扫描图像生成两个页面图像。

11.如权利要求10所述的方法，其特征在于，处理所述扫描图像的步骤包括对于所述两个页面中的每一个独立地检测所述文本行取向并根据所检测的文本行取向纠正所述扫描图像的倾斜。

12.如权利要求1所述的方法，其特征在于，所述方法包括建立页面图像的复合集，所述复合集具有对应于所述多页文档中的页面范围的逻辑部分。

13.如权利要求12所述的方法，其特征在于，所述方法包括接收来自所述操作员的命令，所述命令用于表明扫描图像的子集构成所述页面图像的复合集的逻辑部分。

14.一种文档处理系统(1、50)，包括：

-扫描仪单元(51)，用于通过光学扫描多页文档的一系列页面生成扫描图像，

-用户界面单元(54)，

-图像处理器单元(61)，用于处理所述扫描图像以生成对应于所述多页文档的原始页面的页面图像，

特征在于所述系统包括异常检测装置(62)，用于

-基于在处理所述扫描图像期间得出的所述多页文档的页面属性确定图像参数的目标标准，

-检查所述图像参数是否按照所述目标标准，以及

--如果是，则自动接受所述页面图像，而

--如果不是，则显示所述页面图像供操作员经由所述用户界面单元(54)进行纠正动作或接受所述页面图像。

15.如权利要求14所述的系统，其特征在于，安排所述异常检测装置(62)用于所述通过基于在处理所述扫描图像期间得出的页面属性统计确定所述图像参数中至少一个的目标范围来确定目标标准。

16.如权利要求14所述的系统，其特征在于，安排所述图像处理器单元(61)用于建立页面图像的复合集，所述复合集具有对应于所述多页文档中页面范围的逻辑部分。

17.如权利要求16所述的系统，其特征在于，安排所述用户界面单元(54)用于从所述操作员接收命令，该命令用于表明扫描图像的子集构成所述页面图像的复合集的逻辑部分。

18.如权利要求14所述的系统，其特征在于，系统包括用于打印所述页面图像的打印机单元(130)。