CN105450900A

CN105450900A - 用于文档图像的畸变校正方法和设备

Info

Publication number: CN105450900A
Application number: CN201410286936.5A
Authority: CN
Inventors: 魏晓明
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2014-06-24
Filing date: 2014-06-24
Publication date: 2016-03-30
Anticipated expiration: 2034-06-24
Also published as: CN105450900B

Abstract

本发明涉及用于文档图像的畸变校正方法和设备。用于包括文本区域和非文本区域的文档图像的畸变校正设备包括边界检测单元，被配置用于检测文档图像的边界；文本区域畸变信息获得单元，被配置用于获得文本区域的信息；图像畸变信息确定单元，被配置用于基于文本区域的畸变信息和检测的文档图像的边界确定整个文档图像的畸变信息；以及校正单元，被配置用于基于所获得的整个文档图像的畸变信息来校正文档图像。

Description

用于文档图像的畸变校正方法和设备

技术领域

本发明涉及用于校正文档图像的畸变的方法和设备。更具体而言，本发明涉及用于至少通过延伸文档图像中包含的文本区域的网格以获得整个文档图像的网格来校正文档图像的畸变的方法和设备。

背景技术

近年来，信息技术已经在诸如计算机视觉、图像处理和理解等的多个领域快速发展，并且尤其电子文档处理领域获得日益广泛的关注并且得到广泛应用。

在电子文档处理中，文档图像识别(诸如OCR)已经被应用于并且有助于多种应用以及多种设备，该多种设备从具有图像拾取装置(诸如扫描仪等)的用于文档处理的专业办公设备到具有用于拾取文档图像的装置(诸如照相机等)的、可拾取并处理文档图像以清楚识别这样的文档的内容的个人设备(诸如PC计算机、PDA、手持设备)。

随着配备有照相机的手持设备的发展，在各种环境(诸如文档的办公室外数字化、外语路标的识别、以及视力障碍人员的文本语音输入)中迫切需要移动(基于照相机的)OCR应用。

然而，由于扫描仪和照相机之间的差别，移动OCR成为新的挑战。在基于扫描仪的文档捕获中，文档通常被压板按压，因此基本是平的，并且由于文档的物理状态导致的畸变几乎没有。而在基于照相机的文档捕获中，要被捕获的文档通常是不受约束的并且可能是不平的，因此物理扭曲文档所导致的畸变是常见的现象。畸变将大大降低OCR准确度，这是因为不平的文档形状使得针对被捕获图像的典型文本处理(诸如，分割(文本行分割和字符分割)和识别)即使在局部旋转之后仍变得困难。因此，用于照相机捕获的文档图像的畸变校正是必要的用于移动OCR的处理。

现有技术中存在关于文档图像的畸变校正的多种研究。

一种研究是基于3D的技术。在典型的实现中，这种技术通过近似原始文档表面来得到原始文档的3D表面形状，然后对这样得到的3D表面进行校正(诸如基于一些专用模型进行平坦化)。原始文档表面可通过诸如将照片投影到3D网格上的物理建模被近似，或者可使用SFS(由明暗恢复形状)技术从单个图像中的明暗分布得出。

但是，这样的方法具有限制。特别地，对于物理建模，一些专用的且复杂的附加设备是必需的，这样可能不方便并且在一些情况下费时。对于由明暗恢复形状方法，应满足一些假设(诸如，近点光源)并且应知晓一些现有照相机限制(例如，焦距)，这只能通过准确的照相机校准处理来获得。因此，这样的基于3D的方法通常需要更复杂的设备机构以及费时的操作。

鉴于上述的基于3D的方法的缺陷，提出了针对文档的2D图像的一些其它方法以确定和校正文档图像的畸变。一种这样的用于校正文档图像的畸变的技术是基于如下假设：扭曲类型是特定类型并且预先知晓。在典型实现中，这种技术假定弯曲文档的表面为某一几何类型(诸如圆柱类型)，因此基于文档表面具有某一几何类型的假定，对于这种假定的文档图像的几何类型表面执行校正(诸如低秩矩阵恢复和稀疏误差校正)。

但是，考虑到要被拾取图像的文档的实际表面通常具有比假定的表面的简单形状更复杂的形状，这种技术不能有效地校正文档图像。

另一种方法是基于边界的方法，其基于文档图像的边界对文档图像执行校正。参考文献[1]公开了一种基于边界的方法，该方法提取并且使用文档边界以描述畸变。这对于在成像时遭遇的常见畸变(例如，粘结扭曲)是适当的，这是因为该方法假设文档表面由两条相对边界曲线构成(例如，打开的厚书本)。但是，此方法不能校正边界不是相对的时的情况。

美国专利申请US2012/0320427描述了一种基于边界来估计扭曲文档的深度信息并且可获得具有均匀字符宽度的校正结果的方法，但是，此方法假定扭曲表面为圆柱形。图1A示出了美国专利申请US2012/0320427中公开的方法中的处理。首先其检测输入文档图像的边界，基于检测到的边界产生扭曲网格，然后执行扭曲网格的每个栅格中的透视畸变校正，图像最终被去扭曲。

从上文可见，当前的基于边界的方法具有明显的缺陷，更特别地，当前的基于边界的方法需要文档图像的边界属于特定类型，诸如文档的四个边界是完整的，或者扭曲表面为圆柱形，然而，这样的假设通常与扭曲文档的实际状态明显不同，因此根据这样的假设确定的扭曲信息是不准确的，因此扭曲文档图像不能被适当地校正。

还另外一种方法是基于文本区域的方法，其通过作为文档图像中的文本区域的畸变信息(例如，文本区域中包含的文本的基线、文本区域的扭曲网格)来估计文档的畸变，从而能够基于文档图像中的文本信息执行畸变校正。一些方法直接使用文本的基线信息。参考文献[2]提出了用于校正弯曲的文本行的方法。它们通过聚类连接分量来找到文本行曲线，并且移动该分量以恢复直的水平基线。参考文献[3]估计文本方向并且通过词语分割结果来恢复文档图像。参考文献[4]使用样条线描述基线并且使用样条线来构建二维网格，并且使用图像扭曲技术来进行修正，其假设目标网格中的相邻列之间的距离是均匀的。

美国专利申请US2010/0073735公开一种基于照相机的文档成像方法，并且提出了基于文本的方法，该方法假设文本区域中的局部区域的畸变是线性的，其可通过透视畸变校正被解决，其中局部畸变信息可被从文档内的文本行收集。基于文本的方法基于所估计的行和字符方向将扭曲文档图像划分成多个栅格(grid)，然后将每个栅格变换成方形，并且将它们置于一起以得到图像的完全恢复。

图1B示出美国专利申请US2010/0073735中公开的方法中的处理，首先提取输入文档图像中的所检测到的所有文本行的基线，然后基于霍夫变换方法(假定垂直边界是线性的)确定各段落的垂直边界。基于那些基线和垂直边界，生成扭曲网格，然后在扭曲网格的各栅格中执行透视畸变校正，最终将图像去扭曲。

这样的基于文本区域的校正可被适当地应用于如下这样的文档图像，该文档图像的整体几乎全部是文本，从而文本区域的畸变特性可表示文档图像的畸变特性。但是，当文档图像包含文本区域和非文本区域时(特别地，非文本区域可能不可忽略时)，仅文本区域的特性不能适当地校正整个图像的畸变，这是因为非文本区域(例如，页眉、图像、页脚等)的畸变信息不能被准确地确定。

由上可见，现有技术的对于文档图像的畸变校正技术仍需要被改进。

所引用的文献

[1]Y.C.TsoiandM.S.Brown.Geometricandshadingcorrectionforimagesofprintedmaterialsaunifiedapproachusingboundary.CVPR,pages240–246,2004.

[2]Z.ZhangandC.L.Tan.“Correctingdocumentimagewarpingbasedonregressionofcurvedtextlines”.InProceedingsoftheInternationalConferenceonDocumentAnalysisandRecognition,volume1,pages589–593,2003.

[4]C.WuandG.Agam.“Documentimagede-warpingfortext/graphicsrecognition”.InProceedingsofJointIAPR2002andSPR2002,2002.

发明内容

本发明针对文档图像的畸变校正被开发，并且旨在解决上述问题。

本发明的一个目的是即使文档图像包括文本区域和非文本区域，仍准确确定整个文档图像的畸变。

在一个方面，提供了用于包括文本区域和非文本区域的文档图像的畸变校正设备，该畸变校正设备包括边界检测单元，被配置用于检测文档图像的边界；文本区域畸变信息获得单元，被配置用于获得文本区域的畸变信息；图像畸变信息确定单元，被配置用于基于文本区域的畸变信息以及所检测的文档图像的边界确定整个文档图像的畸变信息；以及校正单元，被配置用于基于所获得的整个文档图像的畸变信息来校正文档图像。

在另一个方面，提供了用于包括文本区域和非文本区域的文档图像的畸变校正方法，该畸变校正方法包括边界检测步骤，用于检测文档图像的边界；文本区域畸变信息获得步骤，用于获得文本区域的畸变信息；图像畸变信息确定步骤，用于基于文本区域的畸变信息以及所检测的文档图像的边界确定整个文档图像的畸变信息；以及校正步骤，用于基于所获得的整个文档图像的畸变信息来校正文档图像。

优选地，畸变信息可以是包含网格线的网格的形式，并且图像畸变信息确定步骤可进一步包括延伸文本区域的网格中包含的网格线至文档图像的对应边界，以确定文档图像的对应非文本区域的网格。

优选地，图像畸变信息确定步骤可包括延伸交点确定步骤，用于确定网格线与对应边界的延伸交点；网格线延伸步骤，用于将网格线延伸至该延伸交点；结点定位步骤，用于在从网格线到延伸交点的延伸线中定位结点，以及结点连接步骤，用于连接各个延伸线中的对应结点以形成用于对应非文本区域的网格。这里，整个文档图像的网格可基于文本区域的网格和非文本区域的网格被形成。

优选地，延伸交点确定步骤可包括确定基准网格线与对应边界的基准延伸交点的步骤；对于除基准网格线之外的其余网格线中的每一个，从基准网格线之一开始，依次基于该网格线的端点与前一水平网格线的对应端点之间的距离来计算该网格线与边界的延伸交点。

优选地，其余网格线中的每一个的交点被计算为使得该交点与前一网格线和文档图像的边界的交点之间的距离与该文档图像的该边界的长度的比率对应于网格线的最接近边界的端点与前一网格线的对应端点之间的距离和该文本区域的对应边界的长度的比率。其中，该文档图像的边界的长度是基于所确定的基准交点被确定的。

优选地，延伸交点确定步骤可进一步包括如下步骤：确定平行于且最接近于对应边界的网格线与平行于且最接近于基准网格线的文档边界的辅助交点。

优选地，该基准交点和辅助交点可被确定为使得该基准交点、辅助交点、对应边界的最接近端点和文本区域的网格的最接近拐点构成平行四边形。

优选地，结点定位步骤可进一步包括对于从网格线到对应延伸交点的每一延伸网格线，基于延伸网格线的长度和文本区域中的网格线中的平均结点间隔确定要在延伸网格线中添加的结点的数量的步骤；基于各个延伸网格线的各自结点数量的统计值来确定延伸网格线中的均匀结点数量的步骤；以及根据所确定的均匀结点数量确定要在各个延伸网格线中添加的结点的位置。

优选地，要在延伸网格线中添加的结点的位置被确定为使得延伸网格线按所确定的均匀结点数量被划分成具有相同长度的分段。

优选地，文本区域畸变信息获得步骤可包括基线提取步骤，用于提取文档图像中包括的文本区域中的文本行的基线，其中每个文本行对应于一条基线；以及基线延伸步骤，用于基于所提取的基线中包含的长基线来延伸所提取的基线中包含的短基线。

优选地，网格线可基于所提取的长基线和经延伸的短基线形成以便获得文本区域的网格。

优选地，文本区域畸变信息获得步骤可包括基线提取步骤，用于提取文档图像中包含的文本区域中的文本行的基线；未对齐基线识别步骤，用于识别所有提取的基线中的端点是未对齐端点的基线；未对齐基线修正步骤，用于对于所识别的端点是未对齐端点的基线中的每一个，基于所有提取的基线中的紧邻该识别的基线的两个正常基线来修正所识别的基线的未对齐端点，以及边界生成步骤，用于利用包括修正后的未对齐基线的所有基线的端点来生成文档图像的文本区域的边界。其中，网格线可基于所提取的基线和所生成的文本区域边界形成，以便获得文本区域的网格。

优选地，文本区域畸变信息获得步骤可进一步包括未对齐基线识别步骤，用于识别所有提取的长基线和经延伸的短基线中的端点为未对齐端点的基线；未对齐基线修正步骤，用于对于所识别的端点是未对齐端点的基线中的每一个，基于所有提取的长基线和经延伸的短基线中的紧邻该识别的基线的两个正常基线来修正所识别的基线的未对齐端点，以及边界生成步骤，用于利用包括修正后的未对齐基线的所有基线的端点来生成文档图像的文本区域的边界。其中，网格线可基于所提取的长基线、经延伸的短基线和所生成的文本区域边界形成，以便获得文本区域的网格。

[技术效果]

本发明提供了一种新的文档图像畸变校正方法，并且可有效地解决关于文档图像的畸变的确定和校正的技术问题。

更特别地，已经提出了本发明的用于准确校正具有文本区域和非本区域的文档图像的畸变的解决方案，该方案扩展对于文本区域确定的畸变信息(例如，网格)以由其确定非文本区域的畸变信息，从而整个文档图像的畸变信息可被准确地确定，因此整个文档图像的畸变可被准确地校正。

与现有技术的基于3D的方法相比，本发明不依赖于任何附加的设备，并且仅仅基于所捕获的图像就可获得准确的校正结果。

与现有技术的基于文本的方法进行比较，本发明的解决方案有效地扩展文本区域的畸变信息以由其确定非文本区域的畸变信息，从而整个文档图像的畸变信息可被准确地确定，因此整个文档图像的畸变可被准确地校正。

与现有技术的基于边界的方法相比，本发明的该解决方案可以处理四条边界都是非线性曲线构成的任意情况。

因此，对于其中垂直畸变为非线性的文档图像，本发明的解决方案可通过延伸文本区域的网格以准确确定整个文档图像的畸变信息，来准确和有效地确定和校正文档图像的畸变。

本发明的其它特性特征和优点将从下文参照附图的描述清楚可见。

附图说明

并入说明书中并且构成说明书的一部分的附图示出了本发明的实施例，并且与描述一起用于解释本发明的原理。在附图中，相似的附图标记指示相似的项目。

图1A示出了现有技术中的用于文档图像的基于边界的畸变校正的典型过程，并且图1B示出了现有技术中的用于文档图像的文本区域畸变校正的典型过程。

图2是示出可实现本发明的实施例的计算机系统的示例性硬件配置的框图。

图3是示出根据本发明的第一实施例的用于文档图像的畸变校正方法的流程图。

图4示意性地示出所检测的文档图像的边界。

图5是示意性地示出文本区域网格形成的处理的流程图。

图6A～6C示意性地示出文档图像中的文本区域的基线提取，并且图6D示意性地示出文档图像的文本区域的所形成的网格。

图7是示出根据本发明的第一实施例的网格线延伸步骤中的处理的流程图。

图8是示出根据本发明的第一实施例的延伸交点确定步骤中的处理的流程图。

图9是示出根据本发明的第一实施例的确定网格线的延伸线中的结点的处理的流程图。

图10示意性地示出文档图像的边界上的基准延伸点的确定。

图11示意性地指示文档图像的边界上的延伸交点间隔以及两个相邻网格线的端点之间的间隔。

图12示意性地示出根据本发明的解决方案所确定的文档图像的边界上的延伸交点。

图13示意性地示出从文本区域中的网格线到边界的延伸线中的结点的添加。

图14A至14D示意性地示出一个示例中的整个文档图像的依次网格形成。

图15A至15F示意性地示出另一个示例中的整个文档图像的依次网格形成。

图16示意性地示出基于形成的整个文档图像的网格的畸变校正。

图17是示出根据本发明的第一实施例的畸变校正设备的框图。

图18A至18C示出通过现有技术的基于文本区域的方法、现有技术的基于边界的方法和本发明的解决方案分别实现的对于畸变文档图像的不同效果。

图19示出现有技术的文本区域方法对于文档图像的校正结果。

图20是示出根据本发明的第二实施例的基线延伸步骤中的处理的流程图。

图21示出将文本区域划分成子区域的示例。

图22是示出根据本发明的第二实施例的子区域基线延伸步骤中的处理的流程图。

图23示出延伸子区域中的短基线的示例。

图24示出基于子区域中的延伸的基线来分割子区域的示例。

图25示出其中短基线已被延伸的文本区域的结果。

图26示出延伸位于文本行的底部的短基线的示例。

图27示出其中顶部或底部短基线已被延伸的文本区域的示例结果。

图28是示出根据本发明的第二实施例的基线延伸单元的框图。

图29示出了通过现有技术和根据本发明的第二实施例的方法获得的畸变校正结果之间的比较。

图30示出现有技术的畸变校正方法对文档图像的校正结果。

图31是示出根据本发明的第三实施例的方法中的文本区域边界确定步骤中的处理的流程图。

图32示出修正基线的左端点的示例。

图33示出修正基线的右端点的示例。

图34示出基于基线的修正后的端点生成文本区域的左边界和右边界的示例结果。

图35是示出根据本发明的第三实施例的基线端点修正单元的框图。

图36示出现有技术的方法和根据本发明的第三实施例的方法生成文本区域的边界的结果的比较。

具体实施方式

下文将参照附图详细描述本发明的实施例。

应注意，在附图中相似的附图标记和字母指示相似的项目，并且一旦一个项目在一个附图中被定义，则对于随后的附图无需再对其进行论述。

首先将解释本公开的上下文中所使用的某些术语的含义。

在本公开的上下文中，图像可指的是任何类型的图像(诸如彩色图像、灰度图像等)中的任一种，并且通常在其中可包括至少一个文本区域。另外，图像通常包括至少一个非文本区域(还可被称为留白区域(marginarea))。应指出，在本说明书的上下文中，图像类型未被具体限制，只要这样的图像的畸变可被确定和校正即可。在本说明书的上下文中，图像包含文本区域和非文本区域指的是图像包含文本区域图像和非文本区域图像。

文档图像中的文本区域可指的是连续文本内容图像区域，其通常包括连续的文本字符行或者其它类似的文本行，并且可包括包含例如标题行的至少一个连续文本段落。文本图像中包含的至少一个文本区域可彼此相邻(在这样的情况下可被视为整体文本区域)，或者是离散的(在这样的情况下可被分别处理)，并且除非另外具体陈述，否则如说明书的上下文中所描述的对于文本区域的处理可等同地应用于文档图像中包含的至少一个文本区域中的每一个。

文档图像中包含的非文本区域指的是文档图像的文本区域周围的区域，通常为文档图像中的留白区域的形式，并且还可被称为边界区域。例如，非文本区域可包括在段落开头或结尾的图片、示图或者数个字母。

在文档图像包含至少一个文本区域和非文本区域的情况下，文档图像的畸变信息通常对应于文档图像中包含的文本区域和非文本区域的畸变信息两者。

在说明书的上下文中，水平方向可指的是与文本行一致的方向而垂直方向是与水平方向垂直的方向。水平方向并不在严格意义上局限于该水平方向，并且还可涵盖由于文档图像的畸变导致的基本水平、但是稍微倾斜的方向，并且垂直方向也不在严格意义上局限于该垂直方向，并且还可涵盖由于文档图像的畸变导致的基本垂直、但是稍微倾斜的方向。

在本公开中，术语“第一”、“第二”等仅仅用于区分元素或者步骤，而不是要指示时间顺序、优先选择或者重要性。

图2是示出可实施本发明的实施例的计算机系统1000的硬件配置的框图。

如图2所示，计算机系统包括计算机1110。计算机1110包括处理单元1120、系统存储器1130、不可移除非易失性存储器接口1140、可移除非易失性存储器接口1150、用户输入接口1160、网络接口1170、视频接口1190、和输出外围接口1195，它们通过系统总线1121连接。

系统存储器1130包括ROM(只读存储器)1131和RAM(随机存取存储器)1132。BIOS(基本输入输出系统)1133驻留在ROM1131中。操作系统1134、应用程序1135、其它程序模块1136和一些程序数据1137驻留在RAM1132中。

不可移除非易失性存储器1141(诸如硬盘)连接到不可移除非易失性存储器接口1140。不可移除非易失性存储器1141例如可存储操作系统1144、应用程序1145、其它程序模块1146以及一些程序数据1147。

可移除非易失性存储器(例如软盘驱动器1151和CD-ROM驱动器1155)连接到可移除非易失性存储器接口1150。例如，软盘1152可插入软盘驱动器1151，并且CD(紧致盘)1156可插入CD-ROM驱动器1155。

诸如鼠标1161和键盘1162的输入设备连接到用户输入接口1160。

计算机1110可通过网络接口1170连接到远程计算机1180。例如，网络接口1170可经局域网1171连接到远程计算机1180。可替换地，网络接口1170可连接到调制解调器(调制器－解调器)1172，并且调制解调器1172经广域网1173连接到远程计算机1180。

远程计算机1180可包括诸如硬盘的存储器1181，其存储远程应用程序1185。

视频接口1190连接到监视器1191。

输出外围接口1195连接到打印机1196和扬声器1197。

图2所示的计算机系统仅是说明性的，并且决不打算限制本发明、其应用或者使用。

图2所示的计算机系统可对于任一实施例被实现为孤立计算机，或者设备中的处理系统，其中可去除一个或多个不必要的组件或者可添加一个或多个附加的组件。

下文，将参照附图描述根据本发明的实施例的畸变校正方法和设备。

[第一实施例]

下文，将参照附图描述根据本发明的第一实施例的畸变校正方法和设备。

总体而言，根据本发明的原理，可基于文档图像中包含的文本区域的畸变信息来确定整个文档图像的畸变信息(诸如反映文档图像的畸变的网格)，从而可准确地校正整个文档图像。更具体而言，文档图像中包含的文本区域的畸变信息可被扩展至文档图像中包含的非文本区域，以便获得该非文本区域的畸变信息，从而可从文本区域和非文本区域的畸变信息的组合来确定整个文档图像的畸变信息。

图3是示出对于可包括文本区域和非文本区域的文档图像的根据本发明的第一实施例的畸变校正方法的流程图。

在用于可包含文本区域和非文本区域的文档图像的畸变校正方法中，在步骤S100(还被称为边界检测步骤)中，文档图像的边界被检测。

在步骤S200(还被称为文本区域畸变信息获得步骤)中，文本区域的畸变信息被获得。

在步骤S300(还被称为图像畸变信息确定步骤)中，基于文本区域的畸变信息以及所检测的文档图像的边界确定整个文档图像的畸变信息。

在步骤S400(还被称为校正步骤)中，基于所获得的整个文档图像的畸变信息来校正文档图像。

下文将详细描述根据本发明的第一实施例的方法中的每一个步骤的处理。

关于边界检测步骤(S100)，可检测文档图像的边界(通常为全部四条边界)，其中两条水平边界可以是与文本行的方向一致的边界，并且垂直边界可以是与水平边界基本垂直的另外两条边界。检测可被以本领域中的多种方式来实现。

在一种实现中，首先，使用Canny算子来检测候选水平和垂直边缘。然后，基于某些特征(长度、位置、形状)从边缘中选择水平边界和垂直边界。最后，通过自然三次方样条插值(NCS)函数分别表示四条边界。图4示出了检测到的文档图像的边界。当然，边界检测并不局限于此，并且可被以本领域中的任何其它方式来实现。

对于文本区域畸变信息获得步骤(S200)，将确定文档图像中包含的文本区域的畸变信息。畸变信息可被以多种方式确定。将参照图5描述文本区域畸变信息确定步骤的一种实现，其中畸变信息为网格形式。

通常，反映文本区域的网格通常包括网格线(meshline)，该网格线彼此交叉，从而文本区域的网格可被划分成多个栅格，并且栅格的形状可基于网格线的布置被确定。网格线可参照文档图像的文本区域中的文本行被形成。在一种典型实现中，网格中的网格线可由水平网格线和垂直网格线构成，其中水平网格线将与文本行一致并且与对于文本行提取的基线基本相同，并且垂直网格线是与水平网格线基本垂直的网格线，从而网格的栅格将是四边形。

在其它实现中，网格线可以是任何其它布置，诸如形成三角形栅格，以及任何其它合适的多边形栅格，只要一组网格线可与文本行一致(例如，与对于文本行提取的基线基本相同)即可。

此外，文本区域的网格可进一步包括典型地在与文本区域中的文本行的延伸方向垂直的方向上的边界。

在步骤S210中，生成所有文本行的基线。在一种实现中，首先，使用CC(连接分量)分析来提取字符CC(S110)。然后，基于CC的顶部或中心点或底部来将CC聚类至不同的文本行。例如，基于CC的底部将CC聚类至不同的文本行，当然，基于CC的顶部或中心点也可将CC聚类。最后，通过样条拟合来使各文本行规则化，从而可获得文档图像中的文本区域中包含的各文本行的基线。

在CC分析中，首先，从输入的文档图像提取一组CC。例如，在CC提取中可使用多种方法，例如颜色聚类、自适应二值化、形态学处理等。在此实施例中，由自适应二值化结果生成CC。应指出，CC提取方法并不限于此，并且本领域中的其它方法也是可能的。

优选地，CC过滤可被应用以从所提取的CC去除非文本CC(包括一些噪声CC以及图片区域(例如，文档中的图片和图表)的CC)。用于过滤的特征包括CC大小、CC纵横比、CC像素在垂直方向和水平方向上的行程长度。应指出，CC过滤可如现有技术中那样实现，而不被特别限制。在这样的CC过滤之后，剩余的CC将是文本CC。

然后，将片段CC(例如，字符的一部分)分别在垂直方向和水平方向上合并至字符CC。此过程主要应对将导致不正确的文本行描迹(tracing)的片段CC。用于组合的特征包括CC的距离、CC的嵌套关系、水平方向上的重叠比、垂直方向上的重叠比和组合后的CC高度。

图6A中示出的CC分析结果。如图6A所示，在对应于“CC提取之后”的视图中，由白色块包围的内容是被提取的并且可能经过滤的CC，而那些未被包围的内容(诸如字符“i”中原始包含的顶部“.”)将被看作片段CC。在对应于“CC合并之后”的视图中，那些片段与字符CC合并以遵循文本行。

在文本行描迹中，对于在CC合并之后仍存在的CC，可根据连接准则被分组为文本行的这些CC的底部被连接。该连接准则主要涉及例如CC的距离以及水平投影中的重叠比。

特别地，当通过连接CC底部来对文本行进行描迹时，如果文本行中的CC的量小于阈值N(例如，N＝4)，则被描迹的行被去除。

文本行描迹之后的结果在图6B中被示出，其中各文本行下方的白色线指示被描迹的文本行。

在文本行描迹之后，将对于被描迹的文本行执行样条拟合。具体而言，考虑到对于被描迹的文本行，通常在其中存在影响基线检测的一些下标或上标，执行样条拟合以例如通过对于被描迹的文本行中包含的各点使用其相邻点进行修正来修正被描迹的行。

对于被描迹的文本行中的当前点，首先，基于该点的左侧相邻点和右侧相邻点来估计局部畸变方向(局部线)。如果当前点远离局部线，则当前点可能是下标或上标，并且当前点的在Y轴上的坐标将根据其X轴坐标和局部线函数被修正。

在样条拟合之后，各被改善的文本行由自然三次样条插值(NCS)表达，然后，获得对应的基线。样条拟合的结果在图6C中被示出，在图6C中，视图的右侧部分中的白色线是从输入文档图像中的文本区域提取的最终基线。

应指出，对于基线提取的描述仅是示例性的而不是限制性的，并且用于文档图像的OCR中的其它基线提取处理也是可能的。例如，文本行修正可被以除样条拟合之外的方式实现。

在步骤S220中，可分别基于基线的端点(开头点和结尾点)来建模左边界和右边界。曲线拟合方法被用于建模左边界和右边界。

通常，除了基线的端点之外，基于文档图像的文本区域的可通过基线的端点获得的边界生成扭曲网格。在文档图像的文本行处于水平方向上的情况下，文本区域的边界指的是文本区域的左边界和右边界。当然，如果文本行在垂直方向上，则边界将是上边界和下边界。

应指出，文本区域的边界可基于所获得的基线被以多种方式(诸如通过直接连接各个基线的端点，或者通过曲线拟合各个基线的端点)确定，因此未被特别限制。

考虑到所生成的扭曲网格应涵盖文档图像的整个文本区域(特别地，文本区域的第一文本行和最终文本行)，在扭曲网格的生成中应执行确保第一文本行和最终文本行被包含在所生成的网格中的处理。下文，作为示例描述对于第一文本行的处理，并且这样的处理可等同地应用于最终文本行。

在对于第一文本行的处理中，首先，计算所有获得的基线(网格的网格线)的平均网格高度，并且将其标记为avg_H，然后，计算第一文本行的文本高度(计算第一文本行的顶部线的NCS函数)，并且将其标记为H_text。接下来，延伸左侧文本边界以用作顶部边界的起点，并且延伸距离可以是avg_H和H_text的最大值，然后，可通过从该起点遵循第一文本行的基线来延伸线以获得网格的顶部线。应指出，延伸并不局限于此，并且其它的延伸方式也可被使用，只要可获得扭曲网格的适当的顶部线即可。

在步骤S230中，通过文档图像的文本区域的所有获得的基线和顶部及底部线以及所确定的左边界和右边界，基线和顶部及底部线中的每一条线被划分成具有相等长度的分段，该长度是根据基线的起点和终点以及被设定的分段数量来计算的(这里分段数量由基线的最大长度以及平均网格高度的比确定)，从而可生成文档图像的文本区域的扭曲网格，如图6D所示。

当然，畸变信息的形式及其确定方法并不局限于此，畸变信息可以是任何其它形式，只要其可被用于确定整个文档图像的畸变信息即可，并且文本区域的畸变信息可被以现有技术中的任何其它方式来确定。

下文将参照图7描述图像畸变信息确定步骤(S300)中的处理，图7示出了根据本发明的第一实施例的图像畸变信息确定步骤中的处理的流程图。该处理的特征在于根据文档图像中的文本区域的畸变信息获得文档图像中的非文本区域的畸变信息，从而可根据文本区域和非文本区域的畸变信息的组合来获得整个文档图像的畸变。

文档图像通常可包括非文本区域(还被称为留白区域或边界区域)，并且边界区域通常包括对应于文档图像的左边界、右边界、上边界和下边界并且围绕作为中心区域的文本区域的左边界区域、右边界区域、上边界区域和下边界区域中的至少一个，并且它们的畸变信息将基于文本区域的畸变信息被确定。在一种实现中，存在全部四个非文本区域，并且将根据文本区域依次确定它们的畸变信息。在另一种实现中，不需要处理全部四个边界区域。例如，如果文本区域的边界及其对应的文档图像的边界足够近(诸如，它们之间的距离小于预定阈值)，可认为在这一侧不存在留白区域，并且这样的非文本区域的畸变信息不需要被确定。

应指出，执行顺序并不特别受限。该顺序通常可被任意选择，只要其畸变信息需要被确定的所有边界区域的畸变信息可被确定即可。

因此，图像畸变信息确定步骤可被执行为使得文本区域的畸变信息被扩展以确定文档图像的四个边界区域中的至少一个，以便确定整个文档图像的畸变信息。

下文，仅仅为了有助于透彻理解本发明，包含网格线的网格将作为畸变信息的示例被描述。在这样的情况下，图像畸变信息确定处理可包括将文本区域的网格中包括的网格线延伸至文档图像的对应边界以确定文档图像的对应非文本区域的网格，从而可确定整个文档图像的最终网格。

将参照图7描述文本区域的网格中包含的网格线到文档图像的对应边界的延伸，图7是示出网格线的延伸的处理的流程图。

在步骤S701中，确定网格线与对应边界的延伸交点。

在步骤S702中，将网格线延伸至所确定的延伸交点。

在步骤S703中，在从网格线到延伸交点的延伸线中定位结点。

在步骤S704中，连接各个延伸线中的对应结点以形成用于对应非文本区域的网格，从而将确定整个文档图像的网格。

在上述网格线延伸处理中描述的网格线实际上指的是对应于其畸变信息需要被确定的边界区域的网格线。也就是说，对于其畸变信息需要被确定的边界区域，如图7所示的上述网格线延伸处理将对于文本区域的对应于该边界区域的网格线被执行。而且，当四个边界区域中的至少一个需要被处理时，上述网格线延伸处理将对于边界区域依次执行，每次针对一个边界区域。

上述的用于延伸网格的处理可被等同地应用于任何类型的网格线，只要网格线可形成反映文档图像的畸变信息的网格并且可在预定方向上延伸即可。常规地，网格通常由水平网格线和垂直网格线构成，并且其中包含的栅格为大致四边形的形式。作为替代地，网格线可以是任何其它形式(诸如形成三角形栅格以及任何其它合适的多边形栅格)。

在这样的情况中，对于一组网格线，文档图像的对应边界可以是文档图像的这样的边界，其可在边界处与网格线相交，而不是大致与网格线平行，并且对应的非文本区域(边界区域)将是文本区域的网格与文档图像的对应边界之间的留白区域，其也可由该组网格线中的第一网格线和最终网格线限定。

例如，在文本区域的网格线包括水平网格线和垂直网格线的情况下，左边界区域(文本区域和文档图像的左边界)对应于朝左侧延伸的水平网格线(即，具有从右至左的延伸方向)；右边界区域(文本区域和文档图像的右边界)对应于朝右侧延伸的水平网格线(即，具有从左至右的延伸方向)；上边界区域(文本区域和文档图像的上边界)对应于朝上部延伸的垂直网格线(即，具有从下至上的延伸方向)以及下边界区域(文本区域和文档图像的下边界)对应于朝下部延伸的垂直网格线(即，具有从上至下的延伸方向)。

因此，当四个边界区域中的至少一个需要被处理时，可执行本质为图7中所示的延伸处理的至少一个对应的以下延伸处理：

将文本区域的网格中包含的水平网格线延伸至文档图像的作为对应边界的左边界，以确定文档图像的作为对应非文本区域的左侧非文本区域的网格；

将文本区域的网格中包含的水平网格线延伸至文档图像的作为对应边界的右边界，以确定文档图像的作为对应非文本区域的右侧非文本区域的网格；

将文本区域的网格中包含的垂直网格线延伸至文档图像的作为对应边界的上边界，以确定文档图像的作为对应非文本区域的上部非文本区域的网格；以及

将文本区域的网格中包含的垂直网格线延伸至文档图像的作为对应边界的下边界，以确定文档图像的作为对应非文本区域的下部非文本区域的网格。

应指出，当存在至少一个要被处理的边界区域时，对于各个边界区域的延伸的执行顺序未被特性限制。该顺序通常可被任意选择。在一种实现中，延伸顺序可根据各个边界区域的大小(诸如文档边界与该边界区域中的文本区域网格边界之间的距离)被决定，并且可从大小最大的边界区域到大小最小的边界区域依次执行，反之亦然。在另一种实现中，延伸可从对应于与文本行一致的水平网格线的边界区域开始，例如延伸可从对应于水平网格线的边界区域中的大小较大的一个边界区域开始。

将参照图8描述网格线与其对应边界线的延伸交点的确定，图8是示出延伸交点的确定处理的流程图。

在步骤S801中，确定文本区域的网格中包含的基准网格线与对应边界的基准延伸交点。

在步骤S802中，对于文本区域的网格中的除基准网格线之外的其余网格线中的每一个，从基准网格线之一开始，依次基于该网格线的端点与前一水平网格线的对应端点之间的距离来计算该网格线与该边界的延伸交点。

这里，其余网格线中的每一个的延伸交点被计算为使得该延伸交点与前一网格线和文档图像的边界的延伸交点之间的距离与该文档图像的该边界的长度的比率对应于该网格线的最接近边界的端点与前一网格线的对应端点之间的距离和该文本区域的对应边界的长度的比率。

这里，该文档图像的边界的长度是基于所确定的基准延伸交点被确定的。

关于步骤S801中的处理，在一种实现中，基准延伸交点的确定可进一步包括确定平行于且最接近于对应边界的网格线与平行于且最接近于基准网格线的文档边界的辅助交点。

其中，该基准延伸交点和辅助交点可被确定为使得该基准延伸交点、辅助交点、对应边界的最接近端点和文本区域的网格的最接近拐点构成平行四边形。

文本区域的网格中包含的基准网格线通常对应于文本区域的网格的边界网格线(诸如网格的顶部和底部水平边界网格线以及左侧和右侧垂直边界网格线)。根据要被处理的边界区域的状态，基准网格线可以是一条或多条基准网格线，并且优选地为两条基准网格线，从而上文描述的步骤S801中的处理可被应用于基准网格线中的每一个。

更具体而言，当基准延伸交点包括第一基准延伸交点和第二基准延伸交点时，第一基准延伸交点是第一网格线与对应边界的延伸交点，其基于第一辅助交点、该边界的第一端点以及文本区域的网格的第一拐点；并且第二基准延伸交点是第二网格线与对应边界的延伸交点，其基于第二辅助交点、该边界的第二端点以及文本区域的网格的第二拐点。在此情况中，文档图像的边界的长度是第一和第二基准延伸交点之间的沿该边界的长度，并且其余延伸交点可根据第一或第二基准延伸交点被确定。

例如，当左边界区域需要被处理时，第一和第二基准网格线将分别是文本区域的顶部和底部水平网格线，其中，对于顶部水平网格线，第一辅助交点可以是左边界网格线与文档图像的上边界的交点，对应边界的最接近端点是文档图像的左边界的顶部端点，并且文本区域的网格的最接近拐点是网格的左上拐点，并且对于底部水平网格线，第一辅助交点可以是左边界网格线与文档图像的下边界的交点，对应边界的最接近端点是文档图像的左边界的底部端点，并且文本区域的网格的最接近拐点是网格的左下拐点。

从而，左边界上的其余延伸交点可根据顶部或底部基准延伸交点被确定，并且边界的长度是这两个基准延伸交点之间的沿该边界的距离。

对于要被处理的其它边界，用于确定边界上的延伸交点的参数可被如上类似地设定。

当然，对于需要被处理的边界区域,在与该边界区域相邻的两个边界区域中的至少一个不需要被处理的情况下，对应于这样的不需要被处理的边界区域的基准网格线可变为边界网格线或者文档图像的边界(两者几乎相同)，然后基准交点可被简单确定为与对应边界的最接近端点或文档图像的最接近的边界拐点相同(两者几乎相同)，由此对于这样的网格线可能不需要执行上述基准延伸交点确定。

在确定延伸交点时使用的网格线的端点实际指的是网格线的在对应边界一侧的端点。

在获得边界上的延伸交点之后，网格线将延伸至文档边界上的对应的延伸交点，以便形成边界区域中的延伸网格线。延伸可遵循一些特定规则(例如特定曲线函数)。各网格线的曲线函数基于文本区网格线的结点以及基准点被确定。例如，曲线函数可通过样条插值或者曲线拟合被确定。

现在将参照图9描述网格线的延伸线中的结点的定位，图9是示出确定结点时的处理的流程图。

在步骤S901中，对于从文本区域中的网格线到对应的延伸交点的每一延伸网格线，基于延伸网格线的长度以及文本区域中的网格线中的结点间隔的统计值(例如，均值)确定要添加在延伸网格线中的结点的数量。

在步骤S902中，基于对应非文本区域中的所有延伸网格线的各个延伸网格线的结点数量的统计值来确定延伸网格线中的均匀结点数量。

在步骤S903中，根据所确定的均匀结点数量来确定要添加在各个延伸网格线中的结点的位置。

在一种实现中，要添加在延伸网格线中的结点的位置被确定为使得延伸网格线通过所确定的均匀结点数量被划分成具有相同长度的分段，分段的数量等于所确定的结点数+1。

在另一种实现中，对于每个网格线，根据文本区域中的网格线中的统计结点间隔以及所确定的均匀结点数量，延伸线中的结点的位置可被从文本区域中的网格线的端点朝文本图像的对应边界依次设定。

这里，文本区域中的网格线中的统计结点间隔可以是多种形式(诸如平均值)，并且在一种实现中，文本区域中的网格线中的统计结点间隔可以是文本区域中的所有网格线的平均结点间隔、或者仅文本区域中的对应的一个网格线的平均结点间隔。

下文，为了透彻理解整个文档图像的网格的确定，将描述所有四个边界区域被依次处理的示例，在该示例中，全部四个边界区域需要被依次处理，并且一个处理后的边界区域将作为要被处理的下一边界区域的基础。

在这样的情况下，延伸处理的序列可以包含24个序列(例如，左->右->上->下、右->上->下->左、上->左->下->右等)，并且为了有助于透彻理解延伸处理，延伸处理将被以左->右->上->下的顺序被描述。应指出，在这样的示例中，各延伸中的延伸网格线将作为下一网格线延伸的基础。即，左侧延伸网格将作为右侧网格延伸的基础，右侧延伸网格将作为向上网格延伸的基础，等等。

首先，文本区域网格中的水平网格线将被延伸至左侧文档边界，以填充文本区域网格和左侧文档边界之间的留白区域。

首先，将确定水平网格线与左文档边界的延伸交点。通常，水平网格线的延伸交点可作为水平网格线与左边界的在如下方向上的交点，该方向可以是网格线的左端点的切线方向，从而各个水平延伸线可从左端点沿这样的方向简单地延伸。

更优选地，考虑到在一些情况中，网格线的在端点处的方向可能不能被准确地估计(例如，短线情况)，根据文本区域中的网格线的曲线函数的延伸可进一步被调整以便更适当。因此，可引入左侧文档边界上的作为基准点的延伸交点以帮助确定校正的延伸方向，在留白区域高度大的情况下尤其如此。此外，基准点还可将外插值问题变换为内插值问题。

在这样的情况中，左侧文档边界上的基准点将是左上基准点和左下基准点，左上基准点是左侧文档边界与文本区域网格的顶部水平网格线的延伸交点，并且左下部基准点是左侧文档边界与文本区域网格的底部水平网格线的交点。第一(例如，顶部)和最终(例如，底部)水平网格线中的每一个可以是第一网格线，并且另一个可以是第二网格线。

左下基准点的位置的确定将作为示例被描述，并且这样的确定可等同地应用于任何其它基准点。

如图10所示，P0是文本区域网格的左下点(最接近拐角点)，P3是左侧文档边界的左下点(最接近端点)，P1是网格的左边界与底部文档边界之间的延伸交点(辅助交点)，并且P2是底部水平网格线与左侧文档边界的延伸交点(要被确定的基准交点)。

实际上，P1和P2可以是需要被优化的变量，其中P2通过将最终水平网格线沿网格线的左端点的切线方向延伸至左侧文档边界来被初始化，P1通过将第一垂直网格线沿该网格线的底部端点的切线方向延伸至底部文档边界来被初始化。理想状态是P0P1P2P3构成平行四边形，从而目标函数被描述为如下：

\{\begin{matrix} \min_{P 1, P 2} [| Dist (P 2, P 0) - Dist (P 1, P 3) | + | Dist (P 0, P 1) - Dist (P 2, P 3)] | \\ x 2 = f (y 2) \\ y 1 = g (x 1) \end{matrix}

类似地，左侧文档边界的左上基准点可被以相同方式确定，然后这两个基准点的位置之间的在文档边界上的范围可被确定为用于确定左边界与水平网格线之间的延伸交点的边界的长度。

随着基准点的位置的范围被确定，内部基准点将根据相邻基准点的间隔与相邻文本区域网格线的间隔成比例的准则被确定。

更具体而言，对于每个水平网格线，文本区域的当前网格线的左端点与文本区域的下一网格线的左端点之间的距离被确定(该距离被标记为Hi(如图11所示))；然后，利用所有距离的总值来对该距离进行归一化，以得到比率

α_{i} = \frac{H_{i}}{Σ_{j = 1}^{N - 1} H_{j}}

这里，N是水平网格线的数量。

接下来，左上基准点和左下基准点内的文档左边界根据该比率被分割。

h_i＝L·α_i

这里，L是左上基准点和左下基准点内的左文档边界的长度。

结果如图12所示，其中圆圈标记了如上文确定的网格线的延伸交点。与其中延伸交点可能没有被优化的图11相比，如图12所示的延伸交点更加适当。

接下来，水平网格线将延伸至左文档边界上的对应延伸交点。延伸可遵循一些特定准则(例如，特定曲线函数)。各网格线的曲线函数基于文本区域网格线的结点以及基准点被确定。例如，存在两种方法来确定该曲线函数。第一方法是样条插值法(例如，自然三次方样条插值)，并且另一方法是曲线拟合(例如，多项式拟合)。这里，使用第一方法。

接下来，将为延伸网格线添加结点。其准则是所添加的结点数量在不同延伸网格线之间相同，并且所添加的结点的间隔在一个网格线内是相似的。

更具体而言，首先，对于文本区域中的要被延伸的每一网格线，在延伸网格线中要被添加的结点数基于延伸网格线的长度以及文本区域网格线的结点间隔被确定。首先，延伸网格线的长度基于如上所述确定的曲线函数被计算。

然后，文本区域网格线的结点间隔的统计值通过结点间隔分布被确定。例如，结点间隔的直方图被构建，并且峰值位置处的值被选择。在一种实现中，统计值可以是文本区域网格线的结点间隔的平均值、中值等。

接下来，延伸网格线的长度根据文本区域网格线的结点间隔的统计值被划分以得到添加的结点数量。

接下来，可基于左侧边界区域中的各个延伸网格线的所有添加的结点数量的统计值来确定左侧边界区域中的所有延伸网格线的均匀添加结点数量。统计值可例如为各个网格线的所有添加的结点数量的平均值、最大值或最小值。均匀的结点数量可根据被添加的结点数量的统计值以多种方式被获得。例如，均匀结点数量可通过对该统计值进行取整而获得。

接下来，可基于各延伸网格线的均匀添加结点数量来确定添加结点的位置。在一种实现中，延伸网格线被划分成具有相同长度的片段，片段数量等于该均匀添加结点数量+1。

左边界区域中的被添加了结点的延伸网格线如图13中所示。

然后，相邻网格线上的被添加的结点被相应地连接以生成左侧边界区域的延伸网格。然后，包含文本区域网格和该延伸网格的第一网格可被获得，并且作为用于获得包括右侧边界区域的延伸网格的下一网格的基础，如图14A所示。

右侧边界区域的延伸网格可被以与上文所述的获得左侧边界区域的延伸网格的方式类似的方式获得，然后，包含文本区域网格和该左侧边界区域的延伸网格以及右侧边界区域的延伸网格的第二网格可被获得，如图14B所示。

然后，类似的，上部边界区域的延伸网格以及下部边界区域的延伸网格可被相继获得，并且整个文档图像的网格将最终被确定，如图14C和14D所示。

应指出，在图14C的情况中，用于确定文档图像的上边界上的基准延伸交点的基准网格线将为左侧边界区域和右侧边界区域中的新确定的网格线(几乎与文档图像的边界相同)，然后基准延伸交点将被简单地确定为文档图像的对应的边界拐点，而不需要执行步骤S801中的处理。图14D的情况类似于对于图14C描述的情况。

下文，将描述图像网格形成的另一示例，然后，该示例与前一示例的不同之处在于水平方向上的两个延伸过程和垂直方向上的两个延伸过程将被依次执行，而不是交错地执行。

因此，四个文档边界区域被分别处理，并且包含8个序列(例如左->右->上->下、右->左->下->上、上->下->左->右等等)。延伸顺序可如上所述根据文档边界与文本区域网格边界之间的距离确定。下文，将按左->右->上->下的顺序来描述延伸处理以便有助于其透彻理解。

左、右、上、下延伸中的每一个将被以与前一示例中的方式类似的方式执行，并且延伸将被简要描述。

基于文本区域的网格的左侧延伸如图15A中所示。

基于文本区域的网格的右侧延伸如图15B中所示。

然后，左延伸网格和右延伸网格与文本区域网格相组合以便获得水平延伸的网格，如图15C中所示。

基于水平延伸的网格的上部延伸如图15D中所示。

然后，上部延伸网格和下部延伸网格与文本区域网格相组合以便获得垂直延伸的网格，如图15F中所示。

下文将描述畸变校正步骤(S400)中的处理。在一种实现中，当畸变信息被以网格形式获得时，畸变校正将是针对扭曲网格的每个栅格进行的，产生变换映射图，并且使用双线性插值将畸变图像中的每个点映射至去扭曲图像。

对于扭曲网格的每个栅格，将产生变换映射图，该变换映射图可将畸变图像中的每个点映射至去扭曲图像。例如，通过参照边界插值技术，可根据获得的扭曲网格构建从输入的畸变文档图像到校正后的图像的图像映射。在获得变换映射图之后，通过对原始文档区域中的像素进行双线性插值来生成校正后图像。由此，文档图像的畸变校正可通过这样的映射被实现，如图16所示。

应指出，对于校正步骤的描述仅仅是示例性的，并且在关于文档图像的畸变的信息被以任何其它方式表示的情况下，根据本发明的第一实施例的方法的校正步骤可被以与文中描述的方式不同的方式来实现。

现在将参照图17描述文档图像的畸变校正设备，图17是根据第一实施例的畸变校正设备的框图。

畸变校正设备1700可包括边界检测单元1701，被配置用于检测文档图像的边界；文本区域畸变信息获得单元1702，被配置用于获得文本区域的畸变信息；图像畸变信息确定单元1703，被配置用于基于文本区域的畸变信息以及所检测的文档图像的边界确定整个文档图像的畸变信息；以及校正单元1704，被配置用于基于所获得的整个文档图像的畸变信息来校正文档图像。

在畸变信息为包含网格线的网格的形式的情况下，图像畸变信息确定单元1703可进一步被配置用于延伸文本区域的网格中包含的网格线至文档图像的对应边界，以确定文档图像的对应非文本区域的网格。

优选地，图像畸变信息确定单元1703可包括延伸交点确定单元1703-1，被配置用于确定网格线与对应边界的延伸交点；网格线延伸单元1703-2，被配置用于将网格线延伸至该延伸交点；结点定位单元1703-3，被配置用于在从网格线到该延伸交点的延伸线中定位结点，以及结点连接单元1703-4，被配置用于连接各个延伸线中的对应结点以形成对应非文本区域的网格。

优选地，延伸交点确定单元1703-1可进一步包括被配置用于确定基准网格线与对应边界的基准延伸交点的单元1703-11；以及单元1703-12，该单元1703-12被配置用于对于除基准网格线之外的其余网格线中的每一个，从基准网格线之一开始，依次基于该网格线的端点与前一水平网格线的对应端点之间的距离来计算该网格线与该边界的延伸交点。

这里，其余网格线中的每一个的交点被计算为使得该交点与前一网格线和文档图像的边界的交点之间的距离与该文档图像的该边界的长度的比率对应于网格线的最接近边界的端点与前一网格线的对应端点之间的距离和该文本区域的对应边界的长度的比率，并且其中，该文档图像的边界的长度是基于所确定的基准交点被确定的。

优选地，延伸交点确定单元1703-1可进一步包括被配置用于确定平行于且最接近于对应边界的网格线与平行于且最接近于基准网格线的文档边界的辅助交点的单元1703-13，其中，该基准交点和辅助交点可被确定为使得该基准交点、辅助交点、对应边界的最接近端点和文本区域的网格的最接近拐点构成平行四边形。

优选地，结点定位单元1703-3可进一步包括单元1703-31，该单元1703-31被配置用于对于从网格线到对应延伸交点的每一延伸网格线，基于延伸网格线的长度和文本区域中的网格线中的平均结点间隔确定要在延伸网格线中添加的结点的数量；单元1703-32，该单元1703-32被配置用于基于各个延伸网格线的各自结点数量的统计值来确定延伸网格线中的均匀结点数量；以及单元1703-33，该单元1703-33被配置用于根据所确定的均匀结点数量确定要在各个延伸网格线中添加的结点的位置。

[良好效果]

通过上文描述的本发明的解决方案的处理，确定的文本区域的畸变信息(诸如网格)可被扩展以由其确定非文本区域的畸变信息，从而整个文档图像的畸变信息可被准确地确定，因此整个文档图像的畸变可被准确校正。

图18A至18C示出了通过现有技术的基于文本区域的方法、现有技术的基于边界的方法以及本发明的解决方案分别实现的畸变文档图像的不同校正结果。从如图18A中所示的这样的畸变图像，很清楚，对于文档图像中的文本区域，本发明的解决方案可实现如下这样的效果：其明显好于基于边界的方法的效果，并且至少类似于现有技术的基于文本区域的方法的效果，如图18B所示，而对于文档图像中的非文本区域(诸如，文档图像中的图片)，现有技术的基于文本区域的方法甚至不能校正这样的非文本区域的畸变，而本发明的解决方案可实现好于基于边界的方法的效果，如图18C所示，。

[第二实施例]

下文将参照附图描述根据本发明的第二实施例，除了文档图像中的文本区域的畸变信息形成之外，本发明的第二实施例与本发明的第一实施例基本相同。为了清楚起见，第二实施例中的与第一实施例中相同的元件和步骤被用相同的附图标记指示，并且它们的描述将被省略。

现有技术的形成文档图像中包含的文本区域的网格的基于文本区域的方法通常假设文档图像的文本区域中包含的大部分文本行是长的且完整的，从而在此基础上确定并校正文档的文本区域的畸变。

但是，通过这样的方法，当文档图像的文本区域实际包括远小于其它文本行的多个短文本行(非常短的行)时，这些短文本行将被作为噪声直接丢弃而不会进行任何处理，然而文本区域的左边界和右边界的确定将受所丢弃的短文本行影响，并且被丢弃的短文本行附近的局部畸变不能被准确地估计，从而这样的基于文本的方法不能准确地确定文本区域的畸变信息，并且不能对文本图像进行有效地校正。因此，现有技术的基于文本的方法不能应对在文档图像的文本区域中具有多个短文本行的情况。

图19示出了通过现有技术对其中文本区域包括多个短文本行的文档图像进行校正的结果，并且现有技术中的校正方法忽略了如图19中的左侧圆圈所示的具有短文本行的区域，因此文本区域的对应边界将不准确，如图19中的右侧圆圈所示。因此，对于该区域的对应校正将是不准确的，诸如一些文字仍将被丢弃，甚至一些短的文字(诸如标题文字)将丢失。

第二实施例被提出以更适当地应对现有技术的基于文本区域的网格形成处理中的上述缺陷，并且第二实施例主要关注于文档图像的文本区域网格形成的改进，特别地，根据本发明的第一实施例的步骤S200中的处理。

在获得文本区域的诸如网格的文本区域畸变信息的处理中，根据第二实施例，首先提取文档图像中包含的文本区域中的文本行的基线，其中每个文本行对应于一条基线；然后，基于所提取的基线中包含的长基线来延伸所提取的基线中包含的短基线；其中，文本区域的网格线基于所提取的长基线和经延伸的短基线形成，从而获得文本区域的网格。也就是说，第二实施例的解决方案的特征在于：延伸从文档图像中包含的文本区域提取的短文本行，从而可基于这样的经延伸的短文本行准确地确定文档图像的文本区域的畸变信息。

此实施例中的基线提取处理以及网格形成处理可与诸如如上所示的现有技术中的处理类似，从而它们的细节将被省略。

下文，将参照图20描述根据本发明的第二实施例的方法的基线延伸步骤中的处理。

对于基线延伸，从文档图像的文本区域提取的所有基线将首先划分成两个子集：长基线和短基线。在一种实现中，长基线是所提取的基线中的其长度长于或者等于特定阈值(下文被称为“第一阈值”)的线，而短基线是所提取的基线中的其长度小于该特定阈值的线。基于这样的定义，文档图像的文本区域中提取的所有基线中的短基线可被识别以便延伸，以用于估计文档图像的文本区域的畸变。

例如，长基线和短基线的这样的分类可被如下地实现。

首先，从文档图像的文本区域提取的所有基线(例如，N是基线的数量)将根据它们的长度被归类。例如，基线的长度可指的是基线中包含的在对应文本行的方向上的像素的数量。

然后，最长基线可被选择以被添加到候选集合中，并且对于其余基线i(i＝2,3,…N)将执行重复处理。

在重复处理的各步骤中，对于当前基线i，当前基线的长度(Li)和当前候选集合的平均长度(Avg)被比较。如果Li>α*Avg(α是经验值，0.7<α<＝1，例如，α＝0.9)，则当前基线可被看作长基线，并且将被添加到当前候选集合中，从而更新后的候选集合的Avg将被相应地更新。然后，将对下一基线进行该处理，直至所有被提取的基线已被分类。最后，最终候选集合中的基线将是长基线，而其余基线是短基线。

在上述处理中，值α*Avg将对应于上述特定阈值。应指出，这样的特定阈值在这里作为示例被描述，并且在分类时该特定阈值可采用其它值，例如恒定阈值。

应指出，这样的分类仅是示例性的，并且其它分类方式也是可能的，诸如针对短基线进行分类。

在基线延伸中，在步骤S2010(还被称为子区域划分步骤)中，从所提取的长基线中的第一长基线开始，文本区域可被划分成至少一个子区域，其中每个子区域由所提取的长基线中的每两个相邻长基线限定。

在步骤S2020(还被称为子区域基线延伸步骤)中，对于该至少一个子区域中的每一个，在该子区域包含至少一个短基线的情况下，该子区域中包含的短基线可基于该子区域中包含的长基线被延伸。

在步骤S2030中，对于位于文本区域的顶部或底部的短基线，可基于所提取的长基线和经延伸的短基线的全部中的与该短基线紧邻的两条基线来延伸该短基线。应指出，步骤S2030中的这样的处理是可选的，并且当在文档图像的文本区域中不存在任何顶部或者底部短基线时，步骤S2030中的步骤不需要执行。

下文将详细描述各步骤中的处理。

在子区域划分步骤中，通常，当文档图像中的文本行在水平方向上时，第一长基线是所提取的基线中包含的最接近文档图像的文本区域的顶部(即，文本区域的开头)的长基线，因此从文档图像的文本区域的顶部到其底部依次执行子区域划分。

基于所确定的候选集合中的长基线，文本区域可至少被划分成小的文本区域(还被称为子区域)。在各子区域中，开始的基线和结尾的基线应分别为长基线。在一种实现中，两个相邻子区域应共用一条长基线，例如子区域的结尾基线和与其相邻的下一子区域的开始基线应是同一基线，并且子区域的这样的划分在图21中被示出，其中四个子区域(子区域1至4)被划分出并且被以不同的线型示出，而子区域的底部基线和与其相邻的下一子区域的顶部基线是同一基线，例如长基线1被子区域1和紧接在子区域1之前的子区域(图21中未示出)共用，长基线2被子区域1和子区域2共用，长基线3被子区域2和子区域3共用，等等。

应指出，这样的子区域划分并不局限于这样的顺序，并且可被以其它顺序执行，诸如子区域划分可从文本区域的底部到文本区域的顶部执行，从文本区域的中部分别到文本区域的顶部和底部执行等等，只要文档图像的文本区域可被划分成至少一个子区域(每个子区域应包括两个相邻的长基线)即可。即使当文档图像中的文本行处于其它方向(诸如垂直方向、倾斜方向)时，子区域划分也可被类似地执行。

下文，将参照图22详细描述根据第二实施例的方法中的子区域基线延伸步骤的处理。这样的处理将对于被划分的至少一个子区域中的每一个顺序执行，并且可被按任何顺序执行，例如从顶部到底部、从底部到顶部等，只要所有子区域将被处理即可。

在子区域基线延伸中，对于每个子区域，如果在该子区域中存在至少一条短基线，将从该子区域中包含的至少一条短基线的全部中选择具有最大长度的短基线，否则该处理将进行至下一子区域。这里，所选择的短基线的长度将如上那样类似地限定。

然后，所选择的短基线基于当前子区域中包含的两个长基线(即，开始长基线和结尾长基线)被延伸。

这里，将参照图23描述延伸子区域中的短基线的处理，其中为了描述起见，文本区域中的文本行已被假定为左对齐，因此延伸短基线指示的将短基线的右端点延伸至右边界。

如图23所示，从当前短基线的右端点起，短基线可被以固定步长(这里，x轴上的步长为1个像素，当然，其它步长也是可能的)延伸至右侧文本区域边界，如图23中的虚线椭圆所示。在各延伸位置处，该位置的y轴位置被确定为满足以下条件：

\frac{{d 2}^{'}}{{d 1}^{'}} = \frac{d 2}{d 1},

这里，d1和d2是短基线的当前端点分别与该子区域的顶部和底部长基线之间的距离(在y轴上测量)，并且d1’和d2’是该短基线的当前端点将一步延伸到的位置分别与该子区域的顶部和底部长基线之间的距离。

延伸位置的水平坐标x’被定义为：

x^{'} = \frac{d 2}{d 1 + d 2} \cdot x_{top} + \frac{d 1}{d 1 + d 2} \cdot x_{bottom,}

这里，x_top和x_bottom分别是顶部长基线和底部长基线的点的x轴坐标，该点对应于延伸位置并且具有如上定义的y轴坐标。

因此，短基线将逐步延伸，直至其最终延伸点(x_e,y_e)将基于顶部长基线和底部长基线的对应端点的坐标(x1，y1)和(x2，y2)被确定。

应指出，这样的描述仅是示例性的，并且该处理可等同地应用于其中短基线的左端点将被延伸至左边界的右对齐情况，其中短基线的右端点和左端点将分别被延伸至右边界和左边界的中央对齐情况。

然后，当前子区域将通过经延伸的短基线被划分成两个新子区域，其中该两个新子区域之一由该两个长基线之一(例如，顶部长基线)和经延伸的短基线限定(这两个基线将作为该新子区域的顶部长基线和底部长基线)，而该两个新子区域中的另一个由该经延伸的短基线和该两个长基线中的另一个(例如，底部长基线)限定(这两个基线将作为该新子区域的顶部长基线和底部长基线)。

图24示出基于子区域中的经延伸的基线来分割子区域的示例。如图24中所示，图21中所示的子区域1被划分成两个新子区域(子区域11和12)。在划分的新子区域11中，其顶部长基线是子区域1的原始顶部长基线(图21中所示的长基线1)，而其底部长基线是当前的经延伸的基线，如实线矩形框所示，而在划分的新子区域12中，其顶部长基线是当前的经延伸的基线，而底部长基线是子区域1的原始底部长基线(图21中所示的长基线2)。

接下来，对于该新子区域中的每一个，将类似地并且顺序地执行上述选择、延伸和划分处理，直至该新子区域中包含的所有短基线已被延伸。由此，当前子区域中包含的所有短基线将被延伸。此后，上述的选择、延伸和划分处理将进行至下一子区域，直至所有子区域已被处理，从而所有子区域中的短基线(即，文本区域中的所有短基线)已被延伸。

图25示出其中短基线已被延伸的文本区域的结果。

应指出，这样的描述仅是示例性的，并且这样的短基线延伸处理可等同地应用于其中短基线的左端点将被延伸至左边界的右对齐情况(即，短基线的左侧是留白区域的情况)，其中短基线的右端点和左端点将分别被延伸至右边界和左边界的中央对齐情况(即，短基线的左右两侧都是留白区域的情况)。

考虑文本区域的顶部或底部基线可能是短基线的特定情况。由于这样的短基线将不被包含在上述划分的子区域中，这样的短基线可能不经受上述基线延伸处理。因此，这样的短基线将被单独地延伸。

这样的顶部或底部短基线的延伸将基于其相邻的长基线，并且将参照图26被描述，图26示意性地示出底部短基线的延伸(示意性地对应于步骤S2030)。

如图26所示，文本区域的基线(L0)是短基线。

在延伸处理中，将选择与该短基线最接近的两个长基线(L1和L2)。在一种实现中，最接近的两个长基线将在与该短基线相邻的并且已经受了上述子区域延伸的子区域中被选择，因此该最接近的两个长基线将是被提取的长基线和经延伸的短基线的全部中的两个最接近的基线。

从当前短基线的右端点起，该短基线将被以固定步长(这里，x轴上的步长为1个像素，当然，其它步长也是可能的)延伸至右侧文本区域边界。在各延伸位置处，该位置的y轴位置被确定为满足以下条件：

\frac{{h_{12}}^{'}}{{h_{01}}^{'}} = \frac{h_{12}}{h_{01}}

这里，h₀₁和h₀₂是在该短基线的当前端点处该短基线与该第一最接近长基线之间的距离以及第一最接近长基线与第二最接近长基线之间的距离(在y轴上测量)，并且h₀₁’和h₀₂’是在该短基线的当前端点将一步延伸到的位置处该短基线与该子区域的第一最接近长基线之间的距离以及该第一最接近长基线和第二最接近长基线之间的距离。

延伸位置的水平坐标x’被定义为

x^{'} = \frac{h_{01} + h_{12}}{2 h_{01} + h_{12}} \cdot x_{1} + \frac{h_{01}}{2 h_{01} + h_{12}} \cdot x_{2}

这里，x1和x2分别是该第一和第二最接近长基线的点的x轴坐标，该点对应于该延伸位置并且具有如上定义的y轴坐标。

因此，短基线将逐步延伸，直至其最终延伸点(x_e,y_e)将基于该第一和第二长基线的对应端点的坐标被确定。

应指出，上述的底部基线延伸处理可等同地应用于为短基线的顶部基线。顶部和底部短基线的延伸结果在图27中被示出。

此外，与上文所述类似的，尽管上述底部基线延伸处理在左对齐情况下被执行，但是其可等同地应用于其中短基线的左端点将被延伸至左边界的右对齐情况(即，短基线的左侧是留白区域的情况)，其中短基线的右端点和左端点将分别被延伸至右边界和左边界的中央对齐情况(即，短基线的左右两侧都是留白区域的情况)。

应指出，上述的短基线延伸方式(即，短基线的延伸点的坐标的确定方式)仅是示例性的，并且这样的延伸主要旨在延伸短基线以便遵循参考长基线(子区域延伸中的顶部和底部长基线，或者顶部和底部短基线延伸中的两个最接近的长基线)，由此延伸方式并不局限于所示出的方式，并且其它延伸方式也是可能的，参考长基线也可以是除了上述的长基线之外的其它基线。

因此，基于包括原始提取的长基线和经延伸的短基线的所有获得的基线，文本区域的网格可如上所述地形成，并且这样的网格将作为根据本发明的第一实施例的图像畸变校正处理的基础。

由于网格形成利用了经延伸的短基线，而不是如现有技术中那样忽略这样的短基线，文档图像的文本区域的边界继而网格可被准确地获得，即使这样的获得方法是现有技术。

下文，将参照图28描述根据本发明的第二实施例的畸变校正设备，考虑到畸变校正设备与第一实施例的不同之处主要在于文本区域畸变信息获得单元，尤其是基线延伸单元，图28主要示出了根据本发明的第二实施例的文本区域畸变信息获得单元，其对应于根据本发明的第一实施例的文本区域信息获得单元1702，而该畸变校正设备中的与第一实施例相同的其它组件将从图中省略。

文本区域畸变信息获得单元2800可包括基线提取单元2801，被配置用于提取文档图像中包含的文本区域中的文本行的基线，其中各文本行对应于一条基线；以及基线延伸单元2802，被配置用于基于所提取的基线中包含的长基线延伸所提取的基线中包含的短基线；其中基于所提取的长基线和经延伸的短基线形成网格从而获得文本区域的网格。

优选地，基线延伸单元2802可包括子区域划分单元2802-1，被配置用于将文本区域划分成至少一个子区域，其中从所提取的长基线中的第一长基线开始，该至少一个子区域中的每一个由所提取的长基线中的每两个相邻长基线限定；以及子区域基线延伸单元2802-2，被配置用于对于所述至少一个子区域中的每一个，在该子区域包括至少一个短基线的情况下，基于该区域中包括的两个长基线来延伸该子区域中包含的所述至少一个短基线。

优选地且可选地，基线延伸单元2802可包括单元2802-3，其被配置用于对于位于文本区域的顶部或底部的短基线，基于所提取的长基线和经延伸的短基线的全部中的紧邻该短基线的两个基线来延伸该短基线的。

优选地，子区域基线延伸单元2802-2可进一步包括被配置用于选择该子区域中包含的至少一个短基线中的具有最大长度的短基线的单元；被配置用于基于该子区域中包含的两个长基线来延伸所选择的短基线的单元；以及被配置用于通过经延伸的短基线将该子区域划分成两个新子区域的单元，其中，该两个新子区域中的一个由该两个长基线之一和该经延伸的短基线限定，并且该两个新子区域中的另一个由该经延伸的短基线和该两个长基线中的另一个限定，

其中，对于该两个新子区域中的每一个，顺序执行所述选择、延伸和划分，直至该子区域中包含的所述至少一个短基线全部被延伸.

在第二实施例中，基线延伸单元2802可位于根据第一实施例的文本区域畸变信息获得单元中，或者可在位于获得单元外部的情况下与根据第一实施例的文本区域畸变信息获得单元交互。基线延伸单元2802甚至可位于根据第一实施例的畸变校正设备外部。

[有利效果]

如上所述，已经提出了本发明的一种解决方案，其延伸从文档图像的文本区域中提取的至少一条短基线来确定关于文档图像的文本区域的畸变的信息，然后基于这样的畸变信息来进行校正。

与现有技术的基于文本的方法进行比较，本发明的解决方案有效地利用了通常被忽略的短文本行，从而更准确地确定文档图像的文本区域的畸变信息以用于校正。

因此，对于可能包含多个短文本行(包括多短文本行、顶部短文本行以及段落结尾的短行)的文档图像，本发明的该解决方案可通过延伸短文本行的短基线来准确和有效地确定和校正该文档图像的畸变。

图29示出了通过现有技术和根据本发明的第二实施例的方法获得的畸变校正结果之间的比较。如图29中所示，对于具有一些极短文本行(诸如标题行“诞生背景(宋体14)”)的原始输入文档图像，如图29中的中间视图所示，现有技术的方法将丢失这样的标题行，而如图29中的右侧视图所示，本发明的解决方案可准确地检测到这样的标题行。

[第三实施例]

下文将参照附图描述根据本发明的第三实施例，除了文本区域畸变信息获得步骤之外，本发明的第三实施例与本发明的第一或第二实施例基本相同。为了清楚起见，第三实施例中的与第一或第二实施例中相同的元件和步骤被用相同的附图标记指示，并且它们的描述将被省略。

为了校正文本区域的畸变(例如，通过构建文本区域的扭曲网格)，文档图像中的文本区域的边界(例如，当文本行在水平方向上时的文本区域的左边界和右边界)应被确定。现有技术假定段落的左边界和右边界为近似直线，可通过霍夫变换被建模，但是这种假设在垂直畸变为非线性的情况下不能成立。

通过此现有技术方法，当文档图像的文本区域的垂直畸变实际为非线性时，这样的方法不能准确地确定文本区域的边界，因此不能准确地确定文本区域的畸变信息，从而不能对文档图像进行有效的校正。因此，这样的方法不能应对垂直畸变为非线性的情况。

图30示出了通过现有技术对于其中垂直边界实际上是非线性的文档图像进行校正的结果，并且如图30所示，现有技术中的校正方法简单地假设垂直畸变是线性的，因此对于该文档图像的对应校正将是不准确的，诸如特别由在文本区域的边界处的符号“-”所表示地，文本区域的边界在一些位置将不整齐(例如，没有对齐)，边界的畸变未被充分校正。

根据第三实施例的方法针对于此情况被提出，并且其特征在于文档图像的文本区域的基线的端点被进一步修正以便准确地确定文档图像的文本区域的边界，从而所确定的文档图像的文本区域的边界可用于更准确地获得文本区域的畸变的信息以用于校正。即，第三实施例主要关注于文档图像的文本区域网格形成的改进，尤其是根据本发明的第一或第二实施例的步骤S210或S220中的处理。

在一种实现中，这样的修正可被直接应用于基线(该基线可通过现有技术中的处理被从文本区域提取)的端点，以获得文本区域的更准确的边界，从而与现有技术中的那些方法(其中没有执行这样的修正)相比，文本区域的畸变仍可如上所述地基于所提取的基线和所获得的边界被校正，诸如对于文本区域可能不包括短基线的情况尤其有效。

在这样的情况中，文本区域网格获得处理可提取文档图像中包含的文本区域中的文本行的基线；识别所有提取的基线中的其端点为未对齐端点的基线；对于所识别的其端点为未对齐端点的基线中的每一个，基于所有提取的基线中的紧邻该识别的基线的两个正常基线来修正所识别的基线的未对齐端点，并且利用包含修正后的未对齐基线的所有基线的端点来生成文档图像的文本区域的边界。因此，网格线基于所提取的基线和所生成的文本区域边界形成以便获得文本区域的网格。

在一种优选实现中，在文本区域包括至少一条短基线的情况下，这样的修正可在如在第二实施例中所述的基线延伸之后被执行，即，第二实施例和第三实施例的解决方案可组合以获得更有利的效果。

在这样的情况的文本区域网格获得处理中，在基线已被提取并且其中的短基线已经如第二实施例中那样被延伸之后，第三实施例的处理将操作以识别所提取的长基线和经延伸的短基线的全部中的其端点为未对齐端点的基线；对于所识别的其端点为未对齐端点的基线中的每一个，基于所提取的长基线和经延伸的短基线的全部中的紧邻该识别的基线的两个正常基线来修正所识别的基线的未对齐端点，并且利用包含修正后的未对齐基线的所有基线的端点来生成文档图像的文本区域的边界。因此，网格线基于所提取的长基线、经延伸的短基线和所生成的文本区域边界形成以便获得文本区域的网格。

此实施例中的基线提取处理以及网格形成处理可与上文所述的类似，因此它们的细节将被省略。

下文，将参照图31描述根据本发明的第三实施例的方法的文本边界确定步骤的处理。

在步骤S3110(还被称为未对齐基线识别步骤)中，识别所有获得的基线中的其端点为未对齐端点的基线。当文本边界确定步骤被应用于第二实施例时，所有获得的基线将是如第二实施例中那样获得的提取的长基线和经延伸的短基线。

在未对齐基线识别处理中，对于所有获得的基线中的每一个，生成基于所有获得的基线中的与该基线相邻的预定数量的基线的端点的裁定线，然后基于生成的裁定线识别该基线的端点是否是未对齐端点。

该裁定线可通过直接连接或者拟合紧接在该基线之前和之后的基线的端点来生成。在另一实现中，该裁定线可通过拟合与该基线相邻的预定数量的基线的端点来生成。拟合可以是现有技术中的任何方式的数学拟合。

在步骤S3120(还被称为未对齐基线修正步骤)中，对于所识别的其端点为未对齐端点的基线中的每一基线，基于所有获得的基线中的与该识别的基线紧邻的两个正常基线来修正该识别的基线的未对齐端点。

在未对齐基线修正步骤中，紧接在所识别的基线之前和之后的基线的端点被直接连接或者拟合以生成裁定线，然后使所识别的基线朝所生成的裁定线延伸以相交，从而交点用作该基线的修正端点。

在步骤S3130中，基于包括修正后的基线的所有基线的端点来确定文本区域的边界。

下文，将参照图32至34详细描述用于左边界和右边界的文本边界确定处理的实现。该描述针对文本区域的左对齐的情况，并且本领域技术人员可想到，这样的文本边界确定处理可等同地应用于其它情况(例如，文本区域的右对齐、文本区域的中央对齐)。

对于要被识别的基线的左端点，要被使用的裁定线可通过直接连接或者拟合与该基线相邻(例如，紧接在该基线之前和之后)的基线的左端点来生成。在此情况中，预定数量的相邻基线是两条基线。

然后，可基于生成的裁定线来确定基线的左端点是否未对齐，例如通过判断该基线的左端点是否在裁定线的右侧且与之相距一定距离(第三阈值，例如大于文本高度的一半的距离，当然，其它值也是可能的)。如果是，则此左端点被标记为缩进或未对齐端点。如图32中所示，由圆圈指示的端点被识别为未对齐端点。

然后，对于其左端点被识别为缩进或者未对齐端点的基线，被识别的基线被向左侧延伸，直至与裁定线相交，从而交点将作为该基线的修正左端点，并且将用于生成文本区域的左边界。应指出，基线的延伸可被以多种方式实现。在优选实现中，基线可在左端点处沿切线方向延伸。

对于基线的右端点，上述的针对基线的左端点的处理也可应用于右端点以便修正未对齐右端点。

但是，考虑到在左对齐情况中总是存在连续缩进或未对齐(对于左对齐文本，左侧文本区域边界上通常不存在连续缩进或未对齐的情况)，为了获得右端点的更好修正结果，优选地，可应用与用于左端点的处理不同的处理。

在用于修正基线的右端点的处理中，首先，可通过拟合与该基线相邻的预定数量的基线的端点来生成裁定线。该拟合可以是现有技术中的任何方式的数学拟合，诸如线性回归，基于局部畸变为线性的假设的RANSAC(随机抽样一致性算法)等。相邻基线的数量可被任意设定，诸如为5个，而并不局限于此。

图33(a)示出了对于基线的右端点获得的裁定线，该裁定线被用于估计当前基线的右端点附近的局部区域的垂直畸变，该局部区域由N条(例如，5条)基线的终端区域构成。

然后，可基于从相邻基线的正常端点(既非缩进也不是未对齐端点)生成的裁定线确定该基线的右端点是否未对齐。

对于基线的右端点，如果其在裁定线的左侧且与之相距一定距离(第四阈值，例如大于文本高度的一半的距离，当然，其它值也是可能的)。如果是，则此右端点被标记为未对齐端点(图33(b)中的圆圈指示)。否则，其被标记为正常端点。

接下来，将修正所识别短基线的未对齐右端点。对于该识别的未对齐右端点(诸如文字“权”附近的圆圈所指示的)，将选择最接近该端点的两个正常端点(例如，分别由文字“先”和“他”附近的圆圈指示的端点)。然后，使用这两个正常端点来拟合线。然后，将被识别的基线向右侧延伸，直至与被拟合的线相交，从而交点将是基线的修正右端点，并且将用于生成文本区域的右边界(如图33(c)所示)。应指出，基线的延伸可被以多种方式实现。在一种优选实现中，基线可在该右端点处的切线方向上延伸。

基于基线的修正后端点，可改进地生成文本区域的边界。如图34所示，基于修正的左端点和右端点分别生成文本区域的左边界和右边界。边界可通过校正相邻基线的端点来生成。当然，其它的边界生成方式也是可能的。

应指出，在上述描述中，基线的未对齐端点通过该基线周围的预定数量的基线被修正，但是上述描述仅是示例性的而不是限制性的。对于其端点未对齐的顶部和底部基线而言，顶部和底部基线可通过该基线之前或之后的预定数量的相邻基线被修正。

下文，将参照图35描述根据本发明的第三实施例的文本区域边界确定单元，考虑到该畸变校正设备与第一或第二实施例的区别主要在文本区域畸变信息获得单元(尤其是文本区域边界确定单元)，图35主要示出了根据本发明的第三实施例的文本区域边界确定单元，其可与根据本发明的第一实施例的文本区域畸变信息获得单元1700或者根据本发明的第二实施例的文本区域畸变信息获得单元2800相结合，而畸变校正设备中的与第一或第二实施例中的那些相同的其它部件将从附图中被省去。

该文本区域边界确定单元可直接应用于根据第一实施例的畸变校正设备，以便用于修正所有获得的基线并由此确定文本区域的边界。在优选实现中，该文本区域边界确定单元可被应用于根据本发明的第二实施例的畸变校正设备，以便用于修正所提取的长基线和经延伸的短基线的全部并由此确定文本区域的边界。

在第三实施例中，文本区域边界确定单元3500可位于根据第一或第二实施例的文本区域畸变信息获得单元中。当文本区域畸变信息获得单元可包括被配置用于执行步骤S210至S230中的处理的子单元时，文本区域边界确定单元3500中包括的单元可位于用于执行上述的步骤S210中的处理的子单元中，或者位于执行上述的步骤S220中的处理的子单元中，或者可被分布在执行上述的步骤S210或S220中的处理的子单元之间。

或者，文本区域边界确定单元3500可在根据本发明的第一或第二实施例的文本区域畸变信息获得单元外部与之交互。文本区域边界确定单元3500甚至可位于根据第一或第二实施例的畸变校正设备外部。

文本区域边界确定单元3500可包括未对齐基线识别单元3501，被配置用于识别所获得的基线的全部(可以是原始提取的基线或者可包括提取的长基线以及通过第二实施例的延伸处理的经延伸的基线)所提取的长基线和经延伸的基线的全部中的端点为未对齐端点的基线；未对齐基线修正单元3502，被配置用于对于所识别的端点为未对齐端点的基线中的每一个，基于提取的长基线和经延伸所获得的基线的全部中的紧邻所识别的基线的两个正常基线来修正所识别的基线的未对齐端点，以及边界生成单元3503，被配置用于利用包括修正后的未对齐基线的所有基线的端点来生成文档图像的文本区域的边界。

优选地，未对齐基线识别单元3501可包括被配置用于基于所获得的基线的全部中的与该基线相邻的预定数量的基线的端点来生成裁定线的单元；以及被配置用于基于所述裁定线来识别基线的端点是否是未对齐端点的单元，其中，对于所有获得的基线中的每一个顺序执行这样的生成和识别。

优选地，未对齐基线修正单元3502可进一步包括被配置用于直接连接或拟合该基线的两个最相邻基线的基线端点以生成线的单元；以及被配置用于使基线朝所生成的线延伸以相交以使得交点用作该基线的修正端点的单元。

[有利效果]

如上所述，已经提出了本发明的一种解决方案，其修正文档图像的文本区域中的文本行的基线的端点，以便准确确定文本区域的边界，然后基于这样的文本区域的边界进行校正。

与现有技术的基于边界的方法相比，本发明的该解决方案本发明的该解决方案可以处理四条边界都是非线性曲线构成的任意情况。

因此，对于其中垂直畸变为非线性的文档图像，本发明的该解决方案可通过准确确定文本区域的左和右边界来准确和有效地确定和校正文档图像的畸变。

图36示出通过现有技术的方法和根据本发明的第三实施例的方法获得的基线校正结果之间的比较。如图36所示，对于原始输入的文档图像，例如，通过现有技术获得的文本区域的第一段的左边界仍稍微畸变(如图36中的中间视图示出)，而这样的左边界可被本发明的解决方案准确地检测和表示(如图36中的右侧视图示出)。

此外，结合第二实施例，对于其中垂直畸变为非线性的文档图像，即使文本图像复杂地畸变并且可包括多个短文本行，本发明的解决方案仍可通过准确确定文本区域的左边界和右边界来准确和有效地确定和校正畸变。

[工业应用性]

本发明可用于许多应用。例如，本发明可用于识别和处理通过照相机捕获的文档图像，并且尤其对于配备有照相机的手持设备(配有照相机的移动电话)是有利的。

应指出，本说明书中描述的方法和设备可被实现为软件、固件、硬件或它们的任何组合。一些组件可例如被实现为在数字信号处理器或微处理器上运行的软件。其它组件例如可被实现为硬件和/或专用集成电路。

可采用多种方式来实行本发明的方法和设备。例如，可通过软件、硬件、固件或它们的任何组合来实行本发明的方法和系统。上文所述的该方法的步骤的顺序仅是说明性的，并且除非另外具体说明，否则本发明的方法的步骤不限于上文具体描述的顺序。此外，在一些实施例中，本发明还可具体化为记录介质中记录的程序，包括用于实施根据本发明的方法的机器可读指令。因此，本发明还涵盖了存储用于实施根据本发明的方法的程序的记录介质。

虽然已经参考示例实施例描述了本发明，但是本领域技术人员应当理解，上述示例仅仅是说明性的而不是打算限制本发明的范围。本领域技术人员应理解上述实施例可在不背离本发明的范围和精神的情况下被修改。本发明的范围由所附的权利要求限定，所附的权利要求的范围将被给予最宽泛的解释，以便包含所有这些修改以及等同结构和功能。

Claims

1.一种用于包括文本区域和非文本区域的文档图像的畸变校正设备，包括：

边界检测单元，被配置用于检测文档图像的边界；

文本区域畸变信息获得单元，被配置用于获得文本区域的畸变信息；

图像畸变信息确定单元，被配置用于基于文本区域的畸变信息和检测的文档图像的边界确定整个文档图像的畸变信息；以及

校正单元，被配置用于基于所确定的整个文档图像的畸变信息来校正文档图像。

2.根据权利要求1所述的设备，其中，畸变信息为包含网格线的网格的形式，并且其中，图像畸变信息确定单元被配置用于延伸文本区域的网格中包含的网格线至文档图像的对应边界，以确定文档图像的对应非文本区域的网格。

3.根据权利要求2所述的设备，其中，图像畸变信息确定单元包括：

延伸交点确定单元，被配置用于确定网格线与对应边界的延伸交点；

网格线延伸单元，被配置用于将网格线延伸至所述延伸交点；

结点定位单元，被配置用于在从网格线到所述延伸交点的延伸线中定位结点；以及

结点连接单元，被配置用于连接各个延伸线中的对应结点以形成用于对应非文本区域的网格，并且

其中，整个文档图像的网格基于文本区域的网格和非文本区域的网格被形成。

4.根据权利要求3所述的设备，其中，延伸交点确定单元包括：

被配置用于确定基准网格线与对应边界的基准延伸交点的单元；

被配置用于对于除基准网格线之外的其余网格线中的每一个，从基准网格线之一开始，依次基于该网格线的端点与前一网格线的对应端点之间的距离来计算该网格线与边界的延伸交点的单元，

其中，其余网格线中的每一个的交点被计算为使得该交点与前一网格线和文档图像的边界的交点之间的距离和文档图像的该边界的长度的比率对应于网格线的最接近边界的端点与前一网格线的对应端点之间的距离和该文本区域的对应边界的长度的比率，并且

其中，该文档图像的边界的长度是基于所确定的基准延伸交点被确定的。

5.根据权利要求4所述的设备，其中，延伸交点确定单元进一步包括：

被配置用于确定平行于且最接近于对应边界的网格线与平行于且最接近于基准网格线的文档边界的辅助交点的单元；

其中，该基准延伸交点和该辅助交点被确定为使得该基准延伸交点、辅助交点、对应边界的最接近端点和文本区域的网格的最接近拐点构成平行四边形。

6.根据权利要求3所述的设备，其中，结点定位单元包括：

被配置用于对于从网格线到对应延伸交点的每一延伸网格线，基于延伸网格线的长度和文本区域中的网格线中的平均结点间隔确定要在延伸网格线中添加的结点的数量的单元；

被配置用于基于各个延伸网格线的各自结点数量的统计值来确定延伸网格线中的均匀结点数量的单元；以及

被配置用于根据所确定的均匀结点数量确定要在各个延伸网格线中添加的结点的位置的单元。

7.根据权利要求6所述的设备，其中，要在延伸网格线中添加的结点的位置被确定为使得延伸网格线按所确定的均匀结点数量被划分成具有相同长度的分段。

8.根据权利要求2所述的设备，其中，文本区域畸变信息获得单元包括：

基线提取单元，被配置用于提取文档图像中包括的文本区域中的文本行的基线，其中每个文本行对应于一条基线；以及

基线延伸单元，被配置用于基于所提取的基线中包含的长基线来延伸所提取的基线中包含的短基线，

其中，网格线基于所提取的长基线和经延伸的短基线形成以便获得文本区域的网格。

9.根据权利要求2所述的设备，其中，文本区域畸变信息获得单元包括：

基线提取单元，被配置用于提取文档图像中包含的文本区域中的文本行的基线；

未对齐基线识别单元，被配置用于识别所有提取的基线中的端点是未对齐端点的基线；

未对齐基线修正单元，被配置用于对于所识别的端点是未对齐端点的基线中的每一个，基于所有提取的基线中的紧邻所识别的基线的两个正常基线来修正所识别的基线的未对齐端点，以及

边界生成单元，被配置用于利用包括修正后的未对齐基线的所有基线的端点来生成文档图像的文本区域的边界，

其中，网格线基于所提取的基线和所生成的文本区域边界形成，以便获得文本区域的网格。

10.根据权利要求8所述的设备，其中，文本区域畸变信息获得单元进一步包括：

未对齐基线识别单元，被配置用于识别所提取的长基线和经延伸的短基线的全部中的端点为未对齐端点的基线；

未对齐基线修正单元，被配置用于对于所识别的端点是未对齐端点的基线中的每一个，基于所提取的长基线和经延伸的短基线的全部中的紧邻所识别的基线的两个正常基线来修正所识别的基线的未对齐端点；以及

其中，网格线可基于所提取的长基线、经延伸的短基线和所生成的文本区域边界形成，以便获得文本区域的网格。

11.一种用于包括文本区域和非文本区域的文档图像的畸变校正方法，包括：

边界检测步骤，用于检测文档图像的边界；

文本区域畸变信息获得步骤，用于获得文本区域的畸变信息；

图像畸变信息确定步骤，用于基于文本区域的畸变信息和检测的文档图像的边界确定整个文档图像的畸变信息；以及

校正步骤，用于基于所获得的整个文档图像的畸变信息来校正文档图像。