CN102790841B - 书籍的书脊区域中数字图像的检测和校正方法 - Google Patents
书籍的书脊区域中数字图像的检测和校正方法 Download PDFInfo
- Publication number
- CN102790841B CN102790841B CN201210046635.6A CN201210046635A CN102790841B CN 102790841 B CN102790841 B CN 102790841B CN 201210046635 A CN201210046635 A CN 201210046635A CN 102790841 B CN102790841 B CN 102790841B
- Authority
- CN
- China
- Prior art keywords
- page
- image
- row
- decline
- input picture
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N1/00—Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
- H04N1/387—Composing, repositioning or otherwise geometrically modifying originals
- H04N1/3872—Repositioning or masking
- H04N1/3873—Repositioning or masking defined only by a limited number of coordinate points or parameters, e.g. corners, centre; for trimming
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N1/00—Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
- H04N1/387—Composing, repositioning or otherwise geometrically modifying originals
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/24—Aligning, centring, orientation detection or correction of the image
- G06V10/247—Aligning, centring, orientation detection or correction of the image by affine transforms, e.g. correction due to perspective effects; Quadrilaterals, e.g. trapezoids
Abstract
使用特征图像来映射对应于页面区域的像素,并创建页面对象和检测页面边界,以分割所扫描的书籍的图像。如下检测书脊区域:定位两个页面对象之间的纯背景区域,分析页面边界以检测页面边界的形状,以及分析页面边界的形状以检测书脊端点。利用页面边界,检查特征图像以检测像素值的顶部至底部降低和底部至顶部降低,以确定原始扫描图像中的阴影失真的角。还检测挤压失真和曲率失真。使用贝塞尔曲线来对在页面上检测到的三种失真中的每一种失真进行建模。通过首先定义梯形校正区域来校正检测到的失真。然后沿着梯形校正区域内的线应用强度、挤压和曲率校正。
Description
相关申请的交叉引用
在2011年3月30日提交的题为“Method of analyzing digital documentimages”的共有美国专利申请No.13/075,978(代理案号EETP126)的全部公开一并在此作为参考。
技术领域
本发明涉及对文档的扫描,具体涉及对书籍的扫描。
背景技术
书籍页面的扫描图像通常具有由扫描产生的三种类型的失真。根据书籍放在扫描表面上时书籍相对于扫描方向的取向以及书脊区域在该表面上方的高度,这三种类型的失真以不同等级出现。如图1所示,当书脊在扫描表面上方时,扫描的图像常常具有阴影,阴影出现在图像中靠近书脊的地方(“阴影失真(shadow distortion)”)。当页面图像挤向书脊,从而离书脊较近的文本变窄并且难以辨识时,出现“挤压失真(squeezedistortion)”。另一种类型的失真“曲率失真”由于同样的原因而出现,但是仅出现在以书脊与扫描仪传感器条平行的方式对书籍进行扫描时,称作“平行扫描情况”。在这种情况下,靠近书脊的文本还向页面的中心弯曲。在受影响区域中,上述失真不仅影响图像的视觉可读性,还在光学字符识别(OCR,optical character recognition)的处理中引起故障。本发明提供了一种检测失真的存在并对失真进行校正的方法。
发明内容
本发明提供了一种对数字化的或扫描的文档图像进行分析的方法和设备。本发明使用基于块的处理来创建特征图像,所述特征图像指示文档图像的空间特性。基于这种特征图像设计了三种检测算法,以检测页面本体、书脊、以及由扫描产生的失真。
更具体地,通过使用特征图像来映射对应于页面区域的像素,创建页面对象和检测页面边界,来分割所扫描的书籍的图像。利用页面边界,在左右页面边界附近的列中检查特征图像,以检测像素值的顶部至底部下降(top-to-bottom decline)和底部至顶部下降(bottom-to-top decline),从而确定原始扫描图像中阴影失真的左上角、右上角、左下角以及右下角。通过以下操作来检测书脊区域:定位两个页面对象之间的纯(plain)背景,分析页面边界以检测边界的形状,以及分析边界的形状以检测书脊端点(end point)。如果页面边界缺少定位书脊必需的信息,则可以采用主行(dominant line)(如果存在的话)作为书脊。
对失真的检测包括:对垂直于书脊的像素值的强度变化进行逼近(approximate),并将强度值拟合成贝塞尔曲线(Bezier curve)以创建强度曲线。此外,将强度曲线变换成挤压曲线。对失真的检测还包括:通过检查页面图像中的文本来检测曲率,并将一串文本段上的点拟合成贝塞尔曲线以创建曲率曲线。通过首先定义梯形校正区域来校正检测到的失真。沿着梯形校正区域内的线应用分别以贝塞尔曲线定义的强度校正、挤压校正和曲率校正。
本发明可应用于扫描仪和用于数字文档图像处理和操控的成像软件,这是因为本发明的组成部分可以用来构建各种增强和分割方案。
因为扫描仪典型地对扫描区域的整个表面进行扫描,并且所扫描的文档在扫描仪表面上的尺寸和位置都可能显著改变,所以通常需要自动去除实际文档周围的暗页边空白,或者甚至提取文档上的纯文本本体,以减小图像尺寸和降低进一步处理的计算复杂度。
结合附图,通过以下描述和权利要求,本发明的其他目的和效果将变得清楚,并且可以更全面地理解本发明。
附图说明
附图中,相同的附图标记表示相同的部分。
图1示出了以书脊平行于扫描仪传感器条的形式扫描的厚书籍;
图2是使用本发明的图像捕获设备和系统的总体框图;
图3是本发明的总体方法的流程图;
图4示出了针对上下左右边界的搜索区域的初始页面边界框;
图5示出了用于对两个页面之间的纯背景的上下边界进行检测的文本搜索窗;
图6示出了通过分析页面边界的形状的书脊检测;
图7A示出了二进制页面边界图像的示例,其中检测到了单个边界,图7B示出了二进制边界图像的示例,其中检测到了两个分离的边界;
图8示出了具有不同控制点P1的贝塞尔曲线的示例;
图9示出了计算书脊端点的五种情况;
图10示出了所扫描的书籍中的阴影失真;
图11是本发明的强度翘曲参数(intensity warping parameter)检测过程的总体流程图;
图12示出了自动选择图像中的一个条带以检测阴影;
图13示出了强度曲线;
图14示出了强度曲线拟合的过程;
图15示出了所扫描的书籍的一幅图像,其中使用网格页来进行校准;
图16示出了来自于一幅校准图像的强度曲线和挤压曲线的图;
图17示出了使用校准数据对ΔY-ΔYS关系的建模;
图18示出了使用校准数据对ΔI-Δδ关系的建模;
图19示出了曲率检测的示例;
图20示出了在下部页面左侧的测试区域的检测;
图21示出了在两个文本区域中检测到的曲线的示例;
图22示出了梯形(trapezoidal)校正区域的定义。
具体实施方式
在以下详细描述中参考了附图,附图以说明的方式示出了本发明的示例实施例。在附图中,贯穿多幅图,相同的数字描述实质上相似的部分。这些实施例描述足够详细,以至于本领域技术人员能够实现本发明。可以使用其他实施例,在不脱离本发明的范围的前提下可以进行结构、逻辑和电学上的改变。此外还应理解,本发明的各种实施例虽然不同,但并不必须互相排斥。例如,在一个实施例中描述的具体特征、结构或特性可以包含在其他实施例中。因此,以下详细描述并不旨在限制,本发明的范围仅由所附权利要求及其等价物的整个范围来限定。
一般地,示例实施例涉及对图像(特别是数字化或扫描的文档)进行检查的方法、设备和计算机可读介质。检查图像以检测在扫描期间引起的失真,然后对图像进行校正以将失真去除或最小化。
示例实施例从数字化或扫描的图像中提取特征,并对文档进行分析,以检测具体特性。然后可以对这些特性(例如,页面区域、书脊和失真参数)进行处理,以校正图像。这种校正可以包括强度和翘曲校正。根据本发明的方法可以实现在诸如平台式扫描仪之类的图像捕获设备中以及包括打印机驱动器或图像编辑软件等的软件模块中。
现在参考图3,示出了用于特征提取的示例方法300。通常,示例方法300以数字化或扫描的图像(输入图像x)来开始步骤302。将输入图像x中多个不相交的像素块中的每一个变换成特征图像中的单一像素。然后可以使用特征图像来分析原始输入图像,例如文档。在图3中,方法300的主要步骤被示为一般性的模块,但是在以下描述中将详细论述方法300。
可以使用承载或存储有计算机可执行指令或数据结构的非暂时性(non-transitory)计算机可读介质来实现本文公开的示例方法300及其变型。这样的计算机可读介质可以是能够被通用或专用计算机的处理器访问的任何可用介质。例如而非限制性地,这样的计算机可读介质可以包括RAM、ROM、EEPROM、CD-ROM或其他光盘存储装置、磁盘存储装置或其他磁存储设备、或者能够用于承载或存储计算机可执行指令或数据结构形式的程序代码并且可以被通用或专用计算机的处理器访问的任何其他介质。上述示例的组合也应当包含在计算机可读介质的范围之内。
例如,计算机可执行指令包括使通用计算机或专用计算机的处理器执行特定的功能或功能组的指令和数据结构。尽管本文以特定于方法逻辑动作的语言描述了主题内容,然而应理解所附权利要求所限定的主题不必限于本文描述的特定动作。而是,本文描述的特定动作被公开为权利要求的示例实现形式。
专用计算机的示例包括:图像处理设备,如数字摄像机(数字摄像机的示例包括但不限于由总部在Owa,Suwa,Nagano,Japan的Seiko EpsonCorporation制造的Epson R-D1数字摄像机);数字摄像放像机(camcorder);投影仪;打印机;扫描仪;复印机;便携式照片浏览器(photo viewer)(便携式照片浏览器的示例包括但不限于由Seiko EpsonCorporation制造的Epson P-3000或P-5000便携式照片浏览器);或便携式电影播放器;或它们的某种组合,如打印机/扫描仪/复印机组合(打印机/扫描仪/复印机组合的示例包括但不限于由Seiko Epson Corporation制造的:Epson Stylus Photo RX580、RX595或RX680,Epson StylusCX4400、CX7400、CX8400或CX9400Fax,以及EpsonCX11NF),打印机/扫描仪组合(打印机/扫描仪组合的示例包括但不限于Epson TM-J9000、TM-J9100、TM-J7000、TM-J7100和TM-H6000III,它们全都是由Seiko Epson Corporation制造的),或数字摄像机/摄像放像机组合。图像处理设备可以包括特征提取能力,例如从图像中提取特征,然后使用所提取的特征对图像进行分析。例如,诸如平台式扫描仪等具有这种特征提取和分析能力的图像捕获设备可以包括实现示例方法300的一个或多个计算机可读介质。备选地,与图像捕获设备相连的计算机可以包括实现示例方法300的一个或多个计算机可读介质。
图2示出了示例图像捕获设备200的示意图。示例图像捕获设备200通过中间接口(intervening interface)202与主计算机250交换数据。还可以存储应用程序和图像捕获设备驱动器,以在主计算机250上访问。例如,当从应用程序接收到图像获取命令时,图像捕获设备驱动器控制命令数据向适合图像捕获设备200的格式的转换,并将转换后的命令数据发送至图像捕获设备200。驱动器还对来自图像捕获设备200的各种信号和数据进行接收和解释,并通过主计算机250向用户提供必要的信息。
当主计算机250发送了数据时,接口202接收该数据并将其存储在接收缓冲器中,所述接收缓冲器构成RAM 204的一部分。可以例如通过寻址将RAM 204划分成多个部分,并分配为不同的缓冲器,如,接收缓冲器或发送缓冲器。图像捕获设备200还可以从一个或多个捕获机构212、闪速EEPROM 210或ROM 208获得诸如数字图像数据之类的数据。例如,所述一个或多个捕获机构212可以通过扫描诸如书籍之类的源文档来产生数字图像。然后可以将该数字图像存储在RAM 204的接收缓冲器或发送缓冲器中。
例如,处理器206使用ROM 208或闪速EEPROM 210上存储的计算机可执行指令来执行特定的功能或功能组,例如本发明的方法。例如在RAM 204的接收缓冲器中的数据是数字图像的情况下,处理器206可以对该数字图像实现本发明方法的方法逻辑动作,以提取数字图像中的特征并基于所提取的特征来进一步分析图像。然后,例如在将图像显示在显示器214(例如,LCD显示器)上、或者传送到主计算机250以在打印机262上打印、用投影仪264投影或在硬盘260上存储之前,可以对数字图像执行成像流水线(imaging pipeline)中的进一步处理。
现在将结合图3来讨论用于提取图像中的特征并基于所提取的特征来进一步分析图像的示例方法300。在执行方法300之前,可以以输入图像作为多种图像处理操作的目标。输入图像可以是灰度图像、二进制图像、数字彩色图像、或者彩色图像的数字化或扫描版本。可以在执行方法300之前对输入图像应用多种图像处理技术。为了便于理解,以下论述将分为下述章节:
A.输入图像,
B.特征图像形成,
C.特征图像分析和分割,
D.页面区域检测,
E.书脊检测,
F.失真检测;以及
G.校正
A.输入图像
在图3中,在步骤302,数字化或扫描的文档构成了数字图像x,该数字图像x具有K1×K2个像素x(r,s),其中(r,s)表示像素位置,r=1,2,....,K1表示图像行,s=1,2,...,K2表示图像列。本发明的目的是主要为了所扫描的书籍文档分析的目的,分析输入图像x的内容。然而应理解,本发明的框架便于适用于任何类型的扫描文档,如书籍、信件、支票、收据、处方等等。
B.特征图像形成
特征图像形成、分析、以及图像分割是在2011年3月30日提交的题为“Method of analyzing digital document images”的共有美国专利申请No.13/075,978(代理案号EETP126)的主题内容,其全部公开一并在此作为参考。本发明涉及对页面区域和书脊的检测、对扫描图像中的失真的建模、以及对这种失真的校正,而不限于任何特定的分割技术。然而为了完整并且便于理解,在下文中描述了在共有美国专利申请No.13/075,978中描述并且要求保护的基于特征图像的分割技术。
因为扫描仪典型地对扫描区域的整个表面进行扫描,并且所扫描的文档在扫描仪表面上的尺寸和位置可能显著改变,所以本发明采用特征提取(图3中的步骤304)来形成特征图像以供后续分析。为了对在扫描过程中引入数字化文档图像的各种扫描缺陷和噪声具有鲁棒性,本发明逐块地处理输入图像。即,选择由g1×g2个像素组成的块,其中g1表示块内的图像行数,g2表示块内的图像列数。该块用于提取前景和背景,前景和背景是任何文档图像的两个基本特征。为了允许高速处理,本发明将图像x中的每个像素块变换成特征图像中的单个像素(步骤306)。因此,在给定输入图像大小和块大小的情况下,特征图像z由K1/g1×K2/g2个像素组成,特征图像z是具有以下像素的双通道图像:z(m,n)=[f(m,n),b(m,n)],其中m=1,2,...,K1/g1,n=1,2,...,K2/g2。项f(m,n)和b(m,n)分别表示矢量像素(vectorial pixel)z(m,n)的前景分量和背景分量。例如,前景分量和背景分量中的每一个将是8比特值。8比特使得可以实现256个离散值。因此,图像x中的每个像素块由具有两个8比特分量的单个像素z(m,n)来表示。
因为大多数文档图像的背景都明显比前景亮(前景可以包含文本、线条、图形和图像),所以可以如下确定特征像素z(m,n)的这两个分量:
f(m,n)=min{x(r,s);(m-1)g1<r≤mg1,(n-1)g2<s≤ng2} (1)
b(m,n)=max{x(r,s);(m-1)g1<r≤mg1,(n-1)g2<s≤ng2} (2)
其中min和max分别是最小值运算符和最大值运算符。等式(1)和(2)示出了特征图像的产生。以特征图像中最左上方的像素作为示例,该像素在输入图像中的对应块是左上方的g1×g2块。前景值和背景值分别是该块内的最小强度值和最大强度值,如由以下等式定义的:
f(1,1)=min{x(r,s);0<r≤g1,0<s≤g2},以及
b(1,1)=max{x(r,s);0<r≤g1,0<s≤g2}。
从以上等式可以看出,本发明将输入图像x划分成像素值块,每个块与一个特征像素z(m,n)=[f(m,n),b(m,n)]相关联。通过以更小的特征图像来表示输入图像(每个像素块减小到一个像素),极大地降低了该框架中后续图像分析的计算复杂度。
为了在输入图像x中显示与特征图像z相对应的任何检测结果,应当将对象或边界框坐标在垂直方向上乘以g1并在水平方向上乘以g2。这将坐标从特征图像域变换到输入图像域。
如果需要创建多个特征图像,则计算上高效的方式是首先创建具有最大目标尺寸的特征图像,然后根据该较大的特征图像来创建另一(较小的)特征图像。依据其他特征图像的目标尺寸,该方法可以迭代重复,产生特征图像金字塔。
可以在对任何特征图像进行分析之前使用低通滤波器来增强该特征图像,以消除两个通道中的异常值(outlier)。如果已知页面取向,则可以使用方向性(例如,垂直或水平)滤波器来产生期望的增强。
如果前景像素表现出比背景像素更高的强度(例如可以根据图像直方图来容易地确定这一点),则应当创建原始文档图像的取逆(inverse)版本并将其用作所提出的方法的输入。
最后,尽管本文仅针对灰度图像给出了实施例,然而本发明中提出的框架当然也可以应用于二进制图像和彩色图像。对于二进制图像,直接应用所提出的框架。对于彩色图像,一些方法是可能的。例如,一种方法是将三分量彩色数据变换成单一值(例如,使用彩色至灰度转换),然后按照与灰度数据或二进制数据的处理方式相同的方式处理这样的标量数据。另一种可能方法是逐个分量地分别对三个颜色通道中的每一个应用所提出的框架,然后组合中间结果。
C.特征图像分析和分割
根据分析目的和预期应用,上述特征提取过程可以用于产生特定尺寸的特征图像或多于一个的特征图像。参数g1和g2允许在处理速度和图像x的分割级别之间进行权衡。例如,较大的g1和g2值可以用于在页面级别上对扫描图像进行分割,而当分别在段落/页面列和行/字符级别上对图像进行分割时中等的和较小的值是有用的。
以下描述的任何分割过程都基于特征图像z的每个像素位置中分量f(m,n)和b(m,n)的评估。值f(m,n)和b(m,n)之间的小差值指示了在与特征图像中的位置(m,n)相对应的像素块中的背景和前景之间的显著相似度。例如,这可能发生在无文本(text-free)图像区域,如,扫描区域中围绕文档的文档边界和区域或者具有实线图形(solid graphics)的区域。因此,可以如下检测页面区域:
其中,θ和是可调(tunable)参数,用于评估前景和背景之间的相似度,以及标识具有背景和前景分量的大贡献的像素。第一参数θ与特征图像中像素的背景值和前景值之间的差值相比较。示例值是50。第二参数定义了最低背景值。示例值是150。这些示例值是基于以下事实来选择的:文本必须具有相对于背景的最小对比度,以便可读,并且书籍图像的背景通常是亮的。项d(m,n)是尺寸与特征图像z的尺寸相同的二进制图(binary map)d中的像素。值d(m,n)=1表示特征图像中的位置(m,n)与页面区域相对应,否则二进制图d中的像素值设置为d(m,n)=0。
等式(3)并不是可以用于产生二进制对象图(binary object map)的唯一解决方案(图3中的步骤308)。为了减小参数θ和对分割性能的影响,可以如下产生二进制对象图:
其中,β是满足b(m,n)-f(m,n)<θ并且的分量b(m,n)的平均值。再次,值d(m,n)=1表示特征图像中的位置(m,n)与页面区域相对应,否则二进制图d中的像素值设置为d(m,n)=0。应理解,本发明不限于等式(3)和等式(4)的示例解决方案,本发明的框架可以灵活地用于除了这些优选实施例以外的其他解决方案。
在本发明中,处理器206通过将d(m,n)=1的相邻像素分组(group)来对图d进行对象分割(图3中的步骤310)。该过程将图d分成N个不相交的对象i=1,2,...,N(图3中的步骤312)。每个对象由Φi来表征,其中Φi是的像素位置(m,n)的集合,其中是高度为宽度为的边界框。为了获得更好的对象分割结果,可以在创建对象之前通过图像滤波对图d进行平滑。
根据扫描质量和分辨率以及块尺寸,对象集合O1,O2,...,ON可以由与分割目标相对应的一个或多个真对象以及多个假对象组成。因此,可以使用一组简单约束(例如,诸如对象的大小和形状等各种几何约束),使不期望的对象不被进一步考虑。这种几何约束的具体形成表示(formulation)可以根据分割目标(例如,文本页面区域分割vs字符分割)和实现策略而显著地不同。例如,为了文本页面区域检测(是本发明的应用之一),目标是去除小的对象和具有不规则长宽比(aspect ratio)的边界框的对象。该处理步骤是直接明了的,并且可以如下实现:
其中Ty和Tx表示对象的最小高度和宽度,T是对象的最大长宽比。
可以预先确定这些参数或者根据对象集合来自适应地确定这些参数(例如,作为在所有分割后的对象上的平均或加权平均,其中较大的权重与较大的对象相关联)。从对象列表中去除满足等式(5)中的一个或多个条件的对象,这可以伴随着将二进制图d中的对应像素d(m,n)设置为零。注意,等式(5)是示例实现方式,本发明不限于上述实施例。
如果分割结果是两个对象,则可以基于这些对象的相对位置和/或尺寸来确定页面取向。如果结果是仅一个页面,则可以通过比较对象的高度和宽度来确定页面取向。为了简单起见,以下论述将假定书籍页面在垂直取向上,这意味着在图像中一个页面在另一个页面上方。
应注意,所检测的对象的边界框精确到g1×g2个像素(在图像宽度和高度尺寸上)。为了提高这些对象的边界框的精度,可以使用对象边界细化过程。下一节将给出示例来说明如何检测页面区域。
D.页面区域检测(图3中的步骤314)
在扫描书籍文档的情况下,依据所扫描的页数,结果始终是一个或两个对象。在许多文档图像应用中,常常需要在不丢失页面上的文本/图形的情况下限定区域。当书籍图像具有两个页面时,使用包围这两个页面对象的框来估计整个书籍页面的图像位置。然而,这种估计有时是非常粗略的。然后在该初始边界框的边界周围进行针对精确页面边界框的搜索。如图3所示,针对顶部框边界T和底部框边界B的搜索区域高度为n×g2,针对左侧框边界L和右侧框边界R的区域宽度为m×g1,其中n和m分别都是大于或等于2的值,取决于处理时间和精度需要。本发明使用一种搜索方法,该搜索方法基于以下事实:当书籍页面小于扫描表面时,所扫描的图像具有在实际页面周围的暗区域,也称作非扫描区域。暗区域的亮度(例如80)是预定义的,以将暗区域与页面图像分开。为了在图像高度维度上找到页面框边界,在相应的搜索区域中执行逐行扫描。扫描从顶部搜索区域中的第一行开始,而对于底部页面框边界在搜索区域中采用相反的扫描顺序。当最小数目的连续行具有比非扫描区域亮的大部分像素时,停止扫描。以逐列的方式应用同样的搜索策略,在图像宽度维度上找到页面框边界。
考虑到书籍可能具有明显的倾角并且页面对象不是水平对齐的,上述方法将产生比实际页面区域大的边界框。在这种情况下,备选解决方案单独地对每个页面对象应用相同的边界检测方法,以在三个方向上精细化其边界。最后,合并顶部页面对象和底部页面对象的两个精细化的边界框,以创建整个页面区域的新边界框。
本发明使用特征图像来检测阴影失真。由于另外两种类型的失真(即,挤压失真和曲率失真)通常与书脊周围的阴影一起出现,所以已识别到阴影失真的区域还可以用作针对这两种失真的初始搜索区域。
E.书脊检测(图3中的步骤316)
在对书籍进行扫描的情况下,例如为了分离两个页面或校正失真,可能确定书脊区域是令人感兴趣的。本发明使用3步过程在两页面书籍图像中寻找书脊:(1)首先定位两个页面之间的纯背景区域。将书脊的检测限制在该区域中能够减小将前景图像误认为是书脊的可能性。然而当扫描非常厚的书籍时,该书籍的两个页面中的图像(例如图1所示的图像,文本和其他前景内容)仅被书脊分开。在这种情况下,必须以不同方式来定义该区域。最简单的方法是将页面对象之间的区域设置为搜索区域。当搜索区域过小以至于无法执行以下处理时,该搜索区域必须扩展为达到最小大小。(2)因为曲率失真改变书脊周围的页面边界曲率,所以当存在该失真时页面边界的形状可以指示书脊的位置。书脊检测的第二步骤是分析感兴趣区域的页面边界。如果边界是直的,则进行至步骤3,否则使用得到的曲率来估计书脊。(3)当不能使用页面边界来定位书脊时,在搜索区域中应用基于修正Hough变换(modified Hough Transform)的线检测,以找到书脊线。
E.1两个页面之间的纯背景的检测
假定感兴趣的纯背景在图像高度维度上位于两个图像行lt和lb之间。本文中检测的目的是找到lt和lb。对lt的搜索起始于顶部页面对象的中心,停止于底部页面对象的顶部。通过在感兴趣的区域中从左至右或从上至下移动预定义大小的窗W(图5),来进行搜索。一个窗的位置不与其他窗的位置重叠。在每个位置处,使用算法来检验图像是否在窗内具有文本。当找到在相同图像高度上的最小数目的窗包含文本时,向着底部页面向下移动窗。搜索再次起始于感兴趣区域的左边界。如果在新图像高度上在更少的窗中检测到文本,则将当前窗所占据的第一个图像行设置为期望的边界lt。在设置了lt之后,从底部页面对象的中心向着lt执行针对lb的从下至上搜索。
本发明的用于文本检测的算法是基于以下两个规则来设计的:(1)文本具有相对于背景的对比度;以及(2)字符具有笔划(边缘)和宽的边缘取向分布。由于边缘分析相对计算量较大,所以只将边缘分析应用作为对满足第一规则的窗的验证步骤。因此文本检测的第一步骤是计算每个窗的图像强度对比度并将其与预定义的最小值相比较。获得对比度的快速方法是从已有的特征图像z中获取每个窗的相应最大强度和最小强度,并计算比值。为了验证文本或字符的存在,在窗内部提取边缘。边缘密度和边缘取向分布是实现可靠文本检测的标准。该验证涉及两个参数。一个参数是每个窗口内图像的最小边缘密度。另一个参数限定了边缘取向必须在0~360度谱上分布的宽度。
E.2使用页面边界的书脊检测
在感兴趣区域内使用页面边界进行书脊检测的关键在于,在图像宽度维度上可靠地提取图像边界。在书籍页面左右两侧的边界区域单独地应用本发明的提取算法。在通过仔细的分割来产生每个边界区域的二进制图像之后,提取页面之间的边界以及非扫描区域。如图6所示的一条或两条曲线上的图像点集合示出了这一点。为了以高效并且精确的方式来分析边界的形状,对曲线进行数学逼近。然后可以判定页面在页面一侧具有直线边界还是具有弯曲。如果找到弯曲的页面边界,将根据曲率来估计书脊的端点。对书脊的两个端点的检测最终产生书脊的图像位置。需要注意的是,这两个感兴趣页面边界并不始终是对称的,在顶部页面和底部页面中书脊处相同的边界可能以不同方式弯曲。
E.2.1页面边界的提取
在页面边界区域的二进制图像中,在本发明中采用边界跟踪算法以8连通(8-connectivity)来检测边界。假定非扫描区域在页面边界的左侧,则从二进制图像的左上角开始搜索边界候选的种子像素(seed pixel)或起点。将从该点朝着图像底部跟踪边界。对典型跟踪算法的一种修改是当边界在最小长度上在水平方向上变平坦或向上折起时,停止跟踪。
本发明的这种修改后的边界跟踪算法可以在图7A所示的图像中找到单个边界。该边界的转折点稍后会在评估步骤中将该边界分成两条曲线。在一些情况下,如图7B所示的图像一样,首先会找到图像顶部的一个边界。因为该边界未达到图像底部,所以将在垂直方向上翻转(flip)该图像,并且再次执行相同的跟踪算法。最后,检测到两个边界。在该示例中,由于图像在书脊周围较暗,所以直的页面边界被书脊分成两段。
E.2.2曲率分析和书脊端点估计
针对书脊检测的曲率分析的目的是确定页面边界是否在顶部和底部页面中均向着同一点弯曲,因为该点可能指示页面区域一侧的书脊线的图像位置。页面边界提取产生一条或两条曲线,每一条曲线由该曲线上的点的集合来描述。分析一条曲线的第一步骤是将该曲线的点拟合成数学模型,这是因为由较少数目的系数来表示曲线使得能够容易地分析曲线的形状。如果所提取的曲线几乎是直的,则可以稳妥地断定页面具有直边界。否则,还需要一个处理步骤来检验边界是否由向着同一点弯曲的两条曲线组成。为了减小曲线提取中的图像噪声和检测误差对曲率造成的影响,在曲率分析之前对每个提取的曲线上的点进行平滑。
在本发明中,使用二次贝塞尔曲线作为模型。该二次贝塞尔曲线是可以由三个控制点来描述的参数化曲线:P0(x0,y0)、P1(x1,y1)和P2(x2,y2)。参考图8,以左上方边界上的曲线为例,该曲线起始于P0并结束于P2,该曲线的路径可以由函数B(t)来跟踪。
B(t)=(1-t)2P0+2(1-t)tP1+t2P2,t∈[0,1]
由于在书脊线搜索区域中页面边界应当是平滑曲线或线,所以通过假定曲线的起始具有90度切线来简化模型,这意味着点P0和P1在相同图像列中(x0==x1)。函数B(t)可以由以下等式来描述:
x(t)=1-t2x0+t2x2
y(t)=(1-t)2y0+2(1-t)ty1+t2y2
在相同的图像高度上以点P0和P2作为曲线上的第一个点和最后一个点。在已知y0和y2的情况下,将曲线的m个点拟合成贝塞尔模型的问题即是以最小误差方式求解x0、x2和y1。
在获得这三个点的最佳估计之后,将检查这三个点的几何结构。在且只有在三个控制点全都共线的情况下,曲线才是直线,这可以发生在以下三种情况中:
情况1:起点P0和终点P2在x维度上具有非常小的偏移。
情况2:点P0和P1过于靠近。如图8所示,当P1接近P0时曲线变成直的。
情况3:点P1非常靠近点P2。这通常暗示了在感兴趣区域的大部分中曲线接近于直线,只在末端非常陡峭地弯曲。这种情况主要由曲线提取误差引起。
以下是在一个页面边界上可能发生的五种常见情况,这些情况会导致如图9所示的不同结果:
(1)如果检测到单个边界并且确定该边界是直的,则无法估计书脊端点;
(2)如果在顶部和底部页面中检测到两条直线,则将书脊端点设置到这两条线的中间;
(3)如果检测到单个边界并且将该单个边界近似为两条贝塞尔曲线,则书脊端点是这些贝塞尔曲线的两个末端控制点之间的中点;
(4)如果检测到两个分离的边界并将这两个边界拟合成贝塞尔曲线,当这两条曲线彼此靠近时,书脊端点被内插(interpolate)到这两条曲线会相交的点;以及
(5)当两条曲线相距较远或者在情况4中没有找到交叉点时,将书脊端点设置为这些贝塞尔曲线的两个末端端点之间的中点。
F.失真检测(图3中的步骤318)
书籍页面的扫描图像通常具有由扫描产生的三种类型的失真。根据书籍放在扫描表面上时书籍相对于扫描方向的取向以及书脊区域在该表面上方的高度,这三种类型的失真以不同水平出现。当书脊在扫描表面上方时,扫描的图像常常具有阴影,阴影出现在图像中靠近书脊的地方。另外两种类型的失真由于同样的原因而出现,但是仅出现在以书脊与扫描仪传感器条平行的方式对书籍进行扫描时,称作“平行扫描情况”。在这种情况下,页面图像挤向书脊,从而离书脊较近的文本变窄并且难以辨识。除了这种“挤压”失真以外,靠近书脊的文本还向页面的中心弯曲。在本说明书中,这种类型的失真称作“曲率失真”。以下章节针对检测每一种失真讨论了本发明的方面。将在顶部和底部页面的左右两侧执行检测。利用贝塞尔曲线来逼近检测到的失真,其中贝塞尔曲线将被用在校正过程中。
F.1阴影失真
在具有阴影失真的图像中,图像的背景从某一点开始向着书脊变得明显地更暗。用于本发明检测方法的输入是来自特征图像的背景分量b(m,n)、页面对象和页面边界区域。参考图10,假定失真区域是四角形Q,该四角形Q的角在顶部和底部页面的左侧和右侧,处理器使用以下步骤来定位该四角形的四个角。
首先,在特征图像中,处理器选择页面区域左侧边界旁边的第一列,并从顶部页面对象的中心向着两个页面对象的中间,跟踪第一列中像素的背景分量值。
优选地,处理器利用高斯滤波器水平地对所选列中的背景分量值进行平滑,以产生鲁棒的背景强度估计。
然后处理器检验平滑后的背景估计是否具有大于最小值(例如,30)的顶部至底部下降。然后将所选列中下降开始的位置映射回原始扫描图像。得到的图像坐标是原始扫描图像中阴影失真区域的左上角。如果顶部至底部下降不大于最小值,则选择左侧边界旁边的不同列进行检查,优选地是所选的第一列旁边的列。
然后处理器选择顶部页面右侧边界旁边的列,并重复以上三个步骤以在顶部页面中找到阴影失真区域的右上角。
处理器重复以上步骤以在底部页面中找到阴影失真区域的左下角和右下角。底部页面中页面背景的期望下降是从顶部至底部的。
这种阴影失真检测算法的精度取决于对特征图像中感兴趣的列的选择。重要的是使用尽可能靠近页面边界的特征图像。在页面上的图形使得页面边界区域不适合表示页面背景的情况下,必须将检测到的失真区域内插到页面边界以便精确。
F.2强度翘曲参数检测
强度翘曲检测检测阴影的存在并对垂直于书脊的方向上的强度变化进行逼近。针对这种检测的输入是以上在B节和C节论述的强度特征图像。图11是过程的总体流程图。在给定如以上在E.2.1节中提取的页面边界区域的情况下,阴影检测中的第一步骤(图11,步骤1102)是选择强度特征图像中的一列,以估计页面背景强度向着书脊如何改变。通过高斯滤波器对该区域的背景强度进行平滑(步骤1104)。将新的强度值拟合成贝塞尔曲线。为了确保从非校正/平坦区域至校正区域的平滑过渡,计算这两个区域之间的边界上的强度水平并将其用作贝塞尔曲线的起始点(步骤1106)。利用所估计的贝塞尔曲线的三个控制点将强度翘曲参数化(步骤1108)。
在本发明中,如下自动选择检测区域。强度特征图像中的一个图像列对应于原始图像中的矩形区域。有利的是,选择尽可能靠近页面边界的区域,以实现更好的校正结果。定义搜索区域,以寻找最佳区域。根据页面边界、校正区域点和书脊位置来选择搜索区域。图12示出了示例,在该示例中,外框B形成搜索区域的边界,垂直线V形成每个候选条带的边界,箭头V示出了扫描方向。在图12所示的示例中,页面左侧的搜索区域是如下定义的矩形:
顶部:页面左侧的校正区域点的图像Y坐标,
底部:书脊的图像Y坐标,
左侧:页面左边界+高斯滤波器长度的二分之一,
宽度:用于选择的条带的最大数目。
类似地,页面右侧的搜索区域被定义为:
顶部:页面右侧的校正区域点的图像Y坐标,
底部:书脊的图像Y坐标,
右侧:页面右边界+高斯滤波器长度的二分之一,
宽度:用于选择的条带的最大数目。
由于页面上的一些图(figure)或前景纹理可能会使强度特征图像失真,从而导致对强度变化的错误估计,重要的是避免使用包含这种图的区域。通过使用强度特征图像对暗块进行计数,来检查图12中标记为垂直条带的每个候选区域。将扫描方向上不具有暗块的第一区域选择为用于强度参数检测的最佳感兴趣区域。在所有区域具有不同数目的暗块的情况下,选择具有最少暗块的区域。
在本发明中,如下计算强度参数。图13示出了强度曲线。假定选择了强度特征图像中的列x,并且该列上的n个背景强度值可用于强度曲线估计。该曲线表示作为图像坐标Y的函数的背景强度。以I=f(y)来表示该强度函数。
已发现书脊周围的背景强度并不总是最低的。图14示出了背景强度在达到书脊之前降至最低的示例。在图14中,黑点表示用于拟合曲线的背景强度值。上部曲线(起始于大约100)和关联的十字标记表示使用所有可用强度值估计出的曲线及其控制点。下部曲线(起始于大约125)和关联的十字标记表示使用所选强度值估计出的曲线及其控制点。如果使用所有值来估计曲线,则不会非常良好地逼近大多数点。为了达到更好的拟合结果,从拟合中排除使强度变到相反方向的值。可以利用梯度来检测曲线的转折点。在丢弃了该转折点后面的点之后,估计上部曲线(起始于大约100)。显然,在图像中存在丢弃点的区域中,曲线不会产生对背景强度的甚至接近的逼近。因此,转折点的强度值用于设定曲线的下边界IL。因此,在给定图像点(x,y)的情况下,通过I=min(f(y),IL)来估计背景强度。函数f(y)包括以下参数:
I0:起点P0处的强度值,
ΔI:最大强度变化
ΔY:控制点P1与起点P0之间的距离
IL:最小强度近似值
F.3挤压翘曲参数检测
在书脊周围的区域中,挤压失真在垂直于书脊的方向上使字符变小。挤压根据图像位置而变化。在书脊为水平的图像中,图像高度维度上的挤压可以被表示为图像Y坐标的函数δ=y-y′=f(y),其中y是在没有挤压的情况下的期望图像坐标,y’是由于挤压而产生的实际图像坐标。由于挤压通常和阴影一起出现并且可以通过F.1节描述的方法来获得强度曲线,所以尝试在相同图像X位置处将背景强度曲线变换成挤压曲线。
为了研究背景强度曲线和挤压曲线之间的关系,在书籍中插入网格页,并在以不同角度放置网格页并且对书籍施加不同压力的情况下扫描。图15示出了扫描图像之一。利用这些校准图像,能够测量对强度曲线进行估计的位置处的挤压。
如图16所示,强度和挤压均可以由贝塞尔曲线来表示。最右侧的曲线和十字标记是强度图像Y曲线及其控制点。最左侧的曲线和十字标记是挤压图像Y曲线及其控制点。这些曲线和十字标记满足以下两个条件:
(1)两条曲线起始并结束于相同的图像高度,
(2)假设挤压曲线在其起始点不具有挤压。
假定强度曲线是I=f(y),该曲线由以下参数来参数化:
I0:起点P0处的强度值,
ΔI:最大强度变化
ΔY:控制点P1与起点P0之间的距离相对于起点与终点之间的距离,
IL:最小强度近似值。
类似地,期望水平曲线δ=y-y′=f(y)将由以下参数来参数化:
Δδ:在终点出现的最大挤压
ΔYS:控制点P1与起点P0之间的距离相对于起点和终点之间的距离。
强度曲线向挤压曲线的变换需要对Δδ和ΔYS进行建模。
图17示出了使用校准数据对ΔY-ΔYS关系的建模。从校准图像获得的数据(ΔY,ΔYS)被示为离线的点。使用线性公式来对ΔY-ΔYS关系进行建模。线上的点指示根据模型估计出的数据。
ΔYS和ΔY分别都是0和1之间的值。基于对校准数据的分析,通过ΔYS=0.2033×ΔY+0.3605对ΔYS和ΔY的关系进行线性建模。
图18示出了使用校准数据对ΔI-Δδ关系的建模。校准数据(ΔI,Δδ)被示为黑点,通过标记所示的二次多项式来逼近这些校准数据(ΔI,Δδ)。
利用校准数据(ΔI,Δδ),获得了二次多项式以在给定ΔI值的情况下估计Δδ:Δδ=0.0015×(ΔI)2+0.1×ΔI-1.8。
F.4曲线翘曲参数检测
曲线翘曲将会影响图像内容以及页面边界。特别是书脊周围区域中的字符将会向着页面的中心移位。此外,页面边界不再是直的。而是,页面边界将会向着中心弯曲。在给定校正区域和书脊位置的情况下,将首先使用页面边界来执行对曲率失真的检测。如果没有提取边界或者该边界的形状不能可靠地近似为贝塞尔曲线,则自动选择包含字符的区域并根据字符来估计曲率。
F.4.1使用页面边界的曲率检测
图19是曲率检测的示例。线C指示校正区域。书脊是线S。在顶部和底部页面中在左右两侧检测到四个曲率(将校正区域边界A与书脊S链接起来的曲线C)。以矩形来标记检测到曲率的区域。关于页面边界提取和曲率分析估计算法的细节,参见以上E.2.2节。由于校正区域是基于强度变化以一定精度级别而定义的,所以页面边界可以不从校正区域的起始处开始弯曲。针对曲率失真的校正使用检测到的曲率来对失真进行建模。
F.4.2使用字符的曲率检测
当书脊在水平取向上时,自动定义顶部或底部页面一侧的搜索区域,并使用该区域内的文本来检测曲率失真。这种曲率检测方法的一种假设是搜索区域内的文本具有相似的字体大小和颜色/强度。
F.4.2.1文本区域检测
图20示出了底部页面左侧的文本区域的检测。在从页面的左边界向着页面中心搜索区域A之后,选择区域R。如箭头AR所示,从左至右执行该搜索。在页面的左右两侧都检测曲率。在每一侧,搜索区域起始于跟页面边界相距一定距离的位置处,并结束于页面的中心。由于希望靠近页面边界来检测曲率,所以页面左侧的搜索是从左至右的。而在页面右侧,将从右至左执行搜索。
在图20给出的示例中搜索区域的垂直尺寸是:起始于底部页面中文本开始的位置,结束于校正区域边界。要选择的文本区域具有预定义的图像宽度(例如,200个像素)。搜索包括移动200像素的窗并检验该窗内是否存在足够的文本。
F.4.2.2曲率检测
可以通过以下四个步骤来概括曲率检测算法:
(1)文本分割,
(2)曲率逼近,
(3)曲线拟合中对文本段的选择,
(4)对逼近曲线的评估。
图21示出了在两个文本区域中检测到的曲线的示例。
详细地,曲率检测算法如下:
在给定的文本区域中,
(1)将文本与页面背景分割(使用边缘来计算强度阈值)。
(2)将区域水平地划分成n个重叠的块。
(3)在每个块中,
计算阈值b/w图像在x轴上的投影,
从投影中提取文本段候选,
如果找到多于一个段,则基于宽度和密度来合并小的相邻的段候选,
更新对文本字体大小和密度的估计。
(4)使用文本的最终估计来细化所提取的文本段。删除过大或过小的文本段。
(5)创建文本段的起点或终点的串。第一串最靠近页面边界。
(6)检查当前串上的点。应用x64规则(少数服从多数,majority-over-minority)来拒绝异常值。然后通过贝塞尔曲线来逼近其余的点。
(7)如果当前串不具有足够的点来可靠地估计曲线或者得到的曲线突然弯曲,则找到下一个串并且将重复步骤5-7,直到检查了所有的串。
G.校正(图3的步骤320)
图22示出了针对失真校正而定义的梯形区域。以水平线CN定义了书脊。如果原始图像中的书脊不是严格水平的,则旋转原始图像以产生图22所示的旋转图像。如果书脊是严格水平的,则旋转后的图像与原始图像相同。以左侧点L和右侧点R来定义校正区域线。线LR上方的页面区域没有失真并且不需要被校正。以梯形AKNC来表示校正区域。
以沿着线LE和RJ应用的两个二次贝塞尔曲线来定义强度校正。以分别沿着线LE和RJ或沿着与线LE和RJ平行的另外两条线而应用的两个二次贝塞尔曲线,来定义挤压和曲率校正。应用了上述曲线的位置处的线LE、RJ和其他线可以位于剪切矩形的外部。在点L和R处的校正量是零,在线AK上的所有点处校正量也是零。
G.1强度校正
在校正图像中,在校正区域内任意像素G处的强度取决于原始图像中对应像素的强度以及沿着线LE和RJ应用的强度校正贝塞尔曲线。强度曲线定义了作为旋转后图像中的垂直点坐标的函数的强度校正量。
定义图像(X,Y)的坐标系,该坐标系具有在左上角的中心、水平的X轴和垂直的Y轴。令(xG,yG)是校正后图像中像素G的坐标。令(x′G,y′G)是旋转后图像中对应点G’的坐标。当不执行翘曲校正时,x′G=xG并且y′G=yG。令(x″G,y″G)是原始图像中对应点G″的坐标。当不旋转原始图像时,x″G=x′G并且y″G=y′G。执行以下步骤。
步骤1:基于针对线LE和RJ的强度校正贝塞尔曲线,来计算强度校正图(map)。强度校正图包含针对线LE和RJ上每一个像素的强度校正量。备选地,可以针对每两个像素、每三个像素等等来计算强度校正量。在强度校正与翘曲校正(挤压和/或曲率校正)相结合的情况下,沿着旋转后图像中的线L’E’和R’J’来计算强度图,其中线L’E’和R’J’对应于校正后图像中的线LE和RJ。
步骤2:如下计算校正区域内所有像素的强度值。按照来计算校正图像IG中像素G的强度值,其中I″G是原始图像中对应点G″的强度,IBG是页面的背景强度,ΔIG是点G处的强度校正量。
由于在一般情况下点G″的坐标(x″G,y″G)是分数值(fractional value),所以使用16个相邻像素的强度值之间的双三次内插来计算I″G的值。如下计算强度校正量ΔIG。将线DI绘制为使得其中点D位于线LE上,点I位于线RJ上(参见图22)。对于点D,在线LE上确定两个另外的点,其中一个点在点D上方而另一个点在点D下方,在这两个点处计算强度校正量并将其存储在强度校正图中。在针对线LE构建的强度校正图中的这两个值之间,线性地内插点D处的强度校正量ΔID。类似地,在针对线RJ构建的强度校正图中的两个值之间,线性地内插点I处的强度校正量ΔII。最后,使用以下两个等式之一在值ΔID和ΔII之间线性内插点G处的强度校正量ΔIG:和前一个等式在页面的左半部是优选的,而后一个等式在页面的右半部是优选的。由于线LE、FH和RJ彼此平行,以上两个等式中的线段|DG|、|GI|和|DI|可以被相应地替换成|EH|、|HJ|和|EJ|,以降低计算量。
在强度校正与翘曲校正(挤压和/或曲率校正)相结合的情况下,可以首先将点L、F、R、D、G、I、E、H和J映射到旋转后图像中的对应点L’、F’、R’、D’、G’、I’、E’、H’和J’,如在以下章节描述的。那么这些对应点的坐标应当被用于计算ΔIG。
G.2翘曲校正
翘曲校正的目的是将校正后图像中任意像素G的坐标(xG,yG)映射到旋转后图像中对应点G’的坐标(x′G,y′G)。
利用沿着线LE和RJ应用的两条挤压校正贝塞尔曲线,对校正区域AKNC内每个点的挤压校正量(垂直于书脊的方向上的移位,即,图22中垂直方向上的移位)进行建模。挤压校正曲线定义了作为旋转后图像中垂直点坐标的函数的垂直移位量ΔyG。
利用沿着线LE和RJ应用的两条曲率校正贝塞尔曲线对校正区域AKNC内每个点的曲率校正量(平行于书脊的方向上的移位,即,图22中水平方向上的移位)进行建模。曲率校正曲线定义了作为旋转后图像中垂直点坐标的函数的水平移位量ΔxG。
然后,如在先前章节描述的,使用坐标(x′G,y′G)=(xG+ΔxG,yG+ΔyG)来找到像素G的强度值。执行以下步骤。
在步骤1,基于针对线LE和RJ的挤压和曲率校正贝塞尔曲线来计算挤压校正图和曲率校正图。挤压校正图将校正后图像中线LE和RJ上每个像素的垂直坐标(Y)转换为垂直移位量Δy。曲率校正图将校正后图像中线LE和RJ上每个像素的垂直坐标(Y)转换为水平移位量Δx。备选地,这些校正图可以包括针对每两个像素、每三个像素等的移位量。
步骤2:如下将校正区域内所有像素的坐标映射到旋转后图像。针对校正后图像中的每个像素G,将线DI绘制为使得其中点D位于线LE上,点I位于线RJ上(参见图22)。对于点D,在线LE上确定两个另外的点,其中一个点在点D上方而另一个点在点D下方,在这两个点处计算水平移位量Δx和垂直移位量Δy并将它们存储在曲率校正图和挤压校正图中。在针对线LE构建的挤压校正图和曲率校正图中的值之间,线性内插点D处的校正量(ΔxD,ΔyD)。类似地,在针对线RJ构建的挤压校正图和曲率校正图中的值之间,线性内插点I处的校正量(ΔxI,ΔyI)。最后,使用以下两个等式之一在值ΔyD和ΔyI之间线性内插点G处的挤压校正量ΔyG:和前一个等式在页面的左半部是优选的,后一个等式在页面的右半部是优选的。类似地,在值ΔxD和ΔxI之间线性内插点G处的曲率校正量ΔxG。
尽管结合若干特定实施例描述了本发明,然而本领域技术人员显然了解通过以上描述许多其他替换、修改和改变将是清楚的。因此,本文描述的发明旨在覆盖所附权利要求的精神和范围之内的所有这样的替换、修改、应用和变型。
Claims (17)
1.一种对所扫描的书籍的输入图像中的失真进行检测的方法,所述输入图像是存储在存储器中的数字化图像或来自扫描仪的扫描图像,所述方法包括:
使用处理器来执行以下操作:
将输入图像划分成多个像素块;
使输入图像中的每个像素块与特征图像中的像素相关联;
分析特征图像中每个像素的值,以创建特征图像的二进制图,其中二进制图中的每个像素对应于页面区域或不对应于页面区域;
对二进制图进行对象分割,以将对应于页面区域的二进制图像素分组;
创建页面对象集合;
检测页面区域的边界;以及
检测页面区域内的失真;
其中,创建两个页面对象,作为关于书脊的顶部页面对象和底部页面对象,并且检测失真包括:
(a)在特征图像中,选择页面区域的左侧边界旁边的第一列,并从顶部页面对象的中心向着所述两个页面对象的中间,跟踪第一列中像素的背景分量的值;
(b)检验所跟踪的值是否具有大于最小值的顶部至底部下降,当顶部至底部下降大于最小值时,识别特征图像中在第一列中顶部至底部下降开始的像素位置,当顶部至底部下降不大于所述最小值时,返回步骤(a)并选择第一列旁边的另一列;以及
将特征图像中在第一列中顶部至底部下降开始的所述像素位置映射到输入图像,以识别输入图像中阴影失真的左上角的坐标。
2.根据权利要求1所述的方法,其中,检测失真还包括:
(a)在特征图像中,选择页面区域的右侧边界旁边的第二列,并从顶部页面对象的中心向着所述两个页面对象的中间,跟踪第二列中像素的背景分量的值;
(b)检验所跟踪的值是否具有大于最小值的顶部至底部下降,当顶部至底部下降大于最小值时,识别特征图像中在第二列中顶部至底部下降开始的像素位置,当顶部至底部下降不大于所述最小值时,返回步骤(a)并选择第二列旁边的另一列;以及
将特征图像中在第二列中顶部至底部下降开始的所述像素位置映射到输入图像,以识别输入图像中阴影失真的右上角的坐标。
3.根据权利要求2所述的方法,其中,检测失真还包括:
(a)在特征图像中,选择页面区域的左侧边界旁边的第三列,并从底部页面对象的中心向着所述两个页面对象的中间,跟踪第三列中像素的背景分量的值;
(b)检验所跟踪的值是否具有大于最小值的底部至顶部下降,当底部至顶部下降大于最小值时,识别特征图像中在第三列中底部至顶部下降开始的像素位置,当底部至顶部下降不大于所述最小值时,返回步骤(a)并选择第三列旁边的另一列;以及
将特征图像中在第三列中底部至顶部下降开始的所述像素位置映射到输入图像,以识别输入图像中阴影失真的左下角的坐标。
4.根据权利要求3所述的方法,其中,检测失真还包括:
(a)在特征图像中,选择页面区域的右侧边界旁边的第四列,并从底部页面对象的中心向着所述两个页面对象的中间,跟踪第四列中像素的背景分量的值;
(b)检验所跟踪的值是否具有大于最小值的底部至顶部下降,当底部至顶部下降大于最小值时,识别特征图像中在第四列中底部至顶部下降开始的像素位置,当底部至顶部下降不大于所述最小值时,返回步骤(a)并选择第四列旁边的另一列;以及
将特征图像中在第四列中底部至顶部下降开始的所述像素位置映射到输入图像,以识别输入图像中阴影失真的右下角的坐标。
5.根据权利要求1所述的方法,其中,检测失真还包括:
使用高斯滤波器来平滑背景分量的值。
6.根据权利要求1所述的方法,还包括使用处理器通过以下操作来检测书脊区域:
定位页面对象中的两个之间的纯背景区域;以及
分析页面边界,以检测边界的形状;以及
分析边界的形状,以检测书脊端点。
7.根据权利要求6所述的方法,其中,检测失真还包括:对垂直于书脊的方向上的像素值的强度变化进行逼近。
8.根据权利要求7所述的方法,还包括:将强度值拟合成贝塞尔曲线,以创建强度曲线。
9.根据权利要求8所述的方法,还包括:将强度曲线变换成挤压曲线。
10.根据权利要求1所述的方法,其中,检测失真包括:通过检查页面区域中的文本,并将一串文本段上的点拟合成贝塞尔曲线以创建曲率曲线,来检测曲率。
11.根据权利要求1所述的方法,还包括:通过定义梯形校正区域来校正检测到的失真。
12.根据权利要求11所述的方法,还包括:沿着梯形校正区域内的线应用以贝塞尔曲线定义的强度校正。
13.根据权利要求11所述的方法,还包括:沿着梯形校正区域内的线应用以贝塞尔曲线定义的挤压校正和曲率校正。
14.一种对所扫描的书籍的输入图像中的失真进行检测的设备,所述输入图像是存储在存储器中的数字化图像或来自扫描仪的扫描图像,所述设备包括:
图像捕获单元,捕获输入图像;
存储器,存储输入图像;以及
处理器,执行以下操作:
将输入图像划分成多个像素块;
使输入图像中的每个像素块与特征图像中的像素相关联;
分析特征图像中每个像素的值,以创建特征图像的二进制图,其中二进制图中的每个像素对应于页面区域或不对应于页面区域:
对二进制图进行对象分割,以将对应于页面区域的二进制图像素分组;
创建页面对象集合;
检测页面区域的边界;以及
检测页面区域内的失真;
其中,处理器创建两个页面对象,作为关于书脊的顶部页面对象和底部页面对象,并且处理器检测失真包括:
(a)在特征图像中,选择页面区域的左侧边界旁边的第一列,并从顶部页面对象的中心向着所述两个页面对象的中间,跟踪第一列中像素的背景分量的值;
(b)检验所跟踪的值是否具有大于最小值的顶部至底部下降,当顶部至底部下降大于最小值时,识别特征图像中在第一列中顶部至底部下降开始的像素位置,当顶部至底部下降不大于所述最小值时,返回步骤(a)并选择第一列旁边的另一列;以及
将特征图像中在第一列中顶部至底部下降开始的所述像素位置映射到输入图像,以识别输入图像中阴影失真的左上角的坐标。
15.根据权利要求14所述的设备,其中,处理器检测失真还包括:
(a)在特征图像中,选择页面区域的右侧边界旁边的第二列,并从顶部页面对象的中心向着所述两个页面对象的中间,跟踪第二列中像素的背景分量的值;
(b)检验所跟踪的值是否具有大于最小值的顶部至底部下降,当顶部至底部下降大于最小值时,识别特征图像中在第二列中顶部至底部下降开始的像素位置,当顶部至底部下降不大于所述最小值时,返回步骤(a)并选择第二列旁边的另一列;以及
将特征图像中在第二列中顶部至底部下降开始的所述像素位置映射到输入图像,以识别输入图像中阴影失真的右上角的坐标。
16.根据权利要求15所述的设备,其中,处理器检测失真还包括:
(a)在特征图像中,选择页面区域的左侧边界旁边的第三列,并从底部页面对象的中心向着所述两个页面对象的中间,跟踪第三列中像素的背景分量的值;
(b)检验所跟踪的值是否具有大于最小值的底部至顶部下降,当底部至顶部下降大于最小值时,识别特征图像中在第三列中底部至顶部下降开始的像素位置,当底部至顶部下降不大于所述最小值时,返回步骤(a)并选择第三列旁边的另一列;以及
将特征图像中在第三列中底部至顶部下降开始的所述像素位置映射到输入图像,以识别输入图像中阴影失真的左下角的坐标。
17.根据权利要求14所述的设备,其中,图像捕获单元是扫描单元。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US13/111,199 | 2011-05-19 | ||
US13/111,199 US8457403B2 (en) | 2011-05-19 | 2011-05-19 | Method of detecting and correcting digital images of books in the book spine area |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102790841A CN102790841A (zh) | 2012-11-21 |
CN102790841B true CN102790841B (zh) | 2015-04-29 |
Family
ID=47156138
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201210046635.6A Active CN102790841B (zh) | 2011-05-19 | 2012-02-27 | 书籍的书脊区域中数字图像的检测和校正方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US8457403B2 (zh) |
JP (1) | JP2012243307A (zh) |
CN (1) | CN102790841B (zh) |
Families Citing this family (32)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5802524B2 (ja) * | 2011-11-21 | 2015-10-28 | 株式会社Pfu | 画像処理装置、画像処理方法、および画像処理プログラム |
JP5884560B2 (ja) * | 2012-03-05 | 2016-03-15 | オムロン株式会社 | 文字認識のための画像処理方法、およびこの方法を用いた文字認識装置およびプログラム |
GB2500431B8 (en) * | 2012-03-22 | 2017-06-07 | Sony Computer Entertainment Europe Ltd | System and method of estimating page position |
CN103455995B (zh) * | 2012-05-31 | 2016-08-03 | 富士通株式会社 | 图像处理装置、图像处理方法和扫描仪 |
US9213917B2 (en) * | 2012-08-17 | 2015-12-15 | Evernote Corporation | Using surfaces with printed patterns for image and data processing |
KR101969965B1 (ko) * | 2012-12-24 | 2019-08-13 | 휴렛-팩커드 디벨롭먼트 컴퍼니, 엘.피. | 화상독취장치, 이미지 보정 방법 및 컴퓨터 판독가능 기록매체 |
KR20140082428A (ko) * | 2012-12-24 | 2014-07-02 | 삼성전자주식회사 | 화상독취장치, 이미지 보정 방법 및 컴퓨터 판독가능 기록매체 |
CN103209284B (zh) * | 2013-02-26 | 2015-03-25 | 中国科学院自动化研究所 | 一种文档扫描图像的亮度补偿方法 |
US8928946B1 (en) * | 2013-06-28 | 2015-01-06 | Kyocera Document Solutions Inc. | Image reading device, image forming apparatus, and image reading method |
KR101409619B1 (ko) | 2014-04-01 | 2014-07-02 | 내셔널 유니버시티 오브 사이언시즈 앤드 테크놀로지 | 회귀 베지어 패치 분할에 기반하는 기하 보정 장치 및 방법 |
CN105335935B (zh) * | 2014-06-11 | 2018-03-16 | 富士通株式会社 | 图像处理装置和方法 |
US9443281B2 (en) * | 2014-06-27 | 2016-09-13 | Intel Corporation | Pixel-based warping and scaling accelerator |
JP6230001B2 (ja) * | 2015-03-12 | 2017-11-15 | カシオ計算機株式会社 | 画像補正装置、画像補正方法、及びプログラム |
JP6143199B2 (ja) * | 2015-03-18 | 2017-06-07 | カシオ計算機株式会社 | 画像補正装置、画像補正方法、及びプログラム |
CN104966081B (zh) * | 2015-06-04 | 2018-05-01 | 广州美读信息技术有限公司 | 书脊图像识别方法 |
CN105245756B (zh) * | 2015-09-28 | 2018-05-29 | 珠海奔图电子有限公司 | 图像处理方法及系统 |
CN108496204B (zh) * | 2016-01-28 | 2020-03-10 | 夏普株式会社 | 书籍电子化方法及书籍电子化装置 |
US10460219B2 (en) * | 2016-03-31 | 2019-10-29 | Hewlett-Packard Development Company, L.P. | Generating an object map from a plurality of binary images |
RU2631765C1 (ru) * | 2016-04-26 | 2017-09-26 | Общество с ограниченной ответственностью "Аби Девелопмент" | Способ и система исправления перспективных искажений в изображениях, занимающих двухстраничный разворот |
CN107545261A (zh) * | 2016-06-23 | 2018-01-05 | 佳能株式会社 | 文本检测的方法及装置 |
RU2628266C1 (ru) * | 2016-07-15 | 2017-08-15 | Общество с ограниченной ответственностью "Аби Девелопмент" | Способ и система подготовки содержащих текст изображений к оптическому распознаванию символов |
CN108335266B (zh) * | 2017-04-14 | 2022-08-05 | 陈思远 | 一种文档图像畸变的矫正方法 |
EP3448010A1 (en) * | 2017-08-23 | 2019-02-27 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | System for analyzing a document and corresponding method |
US20210406451A1 (en) * | 2018-11-06 | 2021-12-30 | Google Llc | Systems and Methods for Extracting Information from a Physical Document |
CN109348084B (zh) * | 2018-11-26 | 2020-01-31 | 珠海奔图电子有限公司 | 图像形成方法、装置、电子设备和可读存储介质 |
US10810777B1 (en) * | 2019-03-28 | 2020-10-20 | Google Llc | Feature erasure |
US20220198814A1 (en) * | 2019-08-14 | 2022-06-23 | Hewlett-Packard Development Company, L.P. | Image dewarping with curved document boundaries |
JP2021087211A (ja) * | 2019-11-29 | 2021-06-03 | ブラザー工業株式会社 | 画像読取装置 |
CN111522981A (zh) * | 2020-04-16 | 2020-08-11 | 广东小天才科技有限公司 | 一种辅助用户进行信息检索的方法及装置 |
CN112183322B (zh) * | 2020-09-27 | 2022-07-19 | 成都数之联科技股份有限公司 | 一种任意形状的文本检测和矫正方法 |
WO2022164575A1 (en) * | 2021-01-29 | 2022-08-04 | Hewlett-Packard Development Company, L.P. | Shadow compensation in images |
CN116453133B (zh) * | 2023-06-16 | 2023-09-05 | 湖北工业大学 | 基于贝塞尔曲线和关键点的横幅文本检测方法及系统 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5481375A (en) * | 1992-10-08 | 1996-01-02 | Sharp Kabushiki Kaisha | Joint-portion processing device for image data in an image-forming apparatus |
US5497236A (en) * | 1993-06-23 | 1996-03-05 | Ricoh Company Ltd. | Method and apparatus for distortion correction of scanned images |
JP3043644B2 (ja) | 1997-01-21 | 2000-05-22 | 米沢日本電気株式会社 | 書籍原稿湾曲検出方式 |
US6806980B2 (en) * | 2000-12-28 | 2004-10-19 | Xerox Corporation | Adaptive illumination correction of scanned images |
JP2004040395A (ja) | 2002-07-02 | 2004-02-05 | Fujitsu Ltd | 画像歪み補正装置、方法及びプログラム |
CN100561504C (zh) * | 2005-12-22 | 2009-11-18 | 佳能株式会社 | 文档的自适应二值化方法和设备 |
US7330604B2 (en) * | 2006-03-02 | 2008-02-12 | Compulink Management Center, Inc. | Model-based dewarping method and apparatus |
JP4991411B2 (ja) | 2006-07-28 | 2012-08-01 | キヤノン株式会社 | 画像処理方法 |
US8306335B2 (en) * | 2011-03-30 | 2012-11-06 | Seiko Epson Corporation | Method of analyzing digital document images |
-
2011
- 2011-05-19 US US13/111,199 patent/US8457403B2/en active Active
-
2012
- 2012-02-27 CN CN201210046635.6A patent/CN102790841B/zh active Active
- 2012-04-25 JP JP2012099989A patent/JP2012243307A/ja active Pending
Also Published As
Publication number | Publication date |
---|---|
CN102790841A (zh) | 2012-11-21 |
US20120294528A1 (en) | 2012-11-22 |
US8457403B2 (en) | 2013-06-04 |
JP2012243307A (ja) | 2012-12-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102790841B (zh) | 书籍的书脊区域中数字图像的检测和校正方法 | |
CN110866924B (zh) | 一种线结构光中心线提取方法及存储介质 | |
CN111127339B (zh) | 一种文档图像的梯形畸变矫正方法及装置 | |
US8401333B2 (en) | Image processing method and apparatus for multi-resolution feature based image registration | |
US8509536B2 (en) | Character recognition device and method and computer-readable medium controlling the same | |
EP1193647B1 (en) | Apparatus and method for correcting distortion of input image | |
US10289924B2 (en) | System and method for scanned document correction | |
JP5082637B2 (ja) | 画像処理プログラム、画像処理方法及び画像処理装置 | |
CN105765551A (zh) | 用于三维几何重建所捕获的图像数据的系统和方法 | |
CN113240626A (zh) | 一种基于神经网络的玻璃盖板凹凸型瑕疵检测与分类方法 | |
CN114529925B (zh) | 一种全线表表格结构识别方法 | |
CN110647795A (zh) | 一种表格识别方法 | |
CN102737240B (zh) | 分析数字文档图像的方法 | |
CN110414385A (zh) | 一种基于单应性变换和特征窗口的车道线检测方法及系统 | |
CN108460833A (zh) | 一种基于bim构建传统建筑数字化保护与修复的信息平台 | |
CN106296587B (zh) | 轮胎模具图像的拼接方法 | |
CN115331245A (zh) | 一种基于图像实例分割的表格结构识别方法 | |
CN112257721A (zh) | 一种基于Fast ICP的图像目标区域匹配方法 | |
CN114494306B (zh) | 边缘梯度协方差引导的甲骨卜辞文字轮廓修复方法 | |
US8855419B2 (en) | Image rectification using an orientation vector field | |
US9008444B2 (en) | Image rectification using sparsely-distributed local features | |
CN112364863B (zh) | 证照文档的文字定位方法及系统 | |
CN112070684B (zh) | 基于形态先验特征的甲骨刻辞文字修复方法 | |
JP2014106713A (ja) | プログラム、方法、及び情報処理装置 | |
CN110390642B (zh) | 一种对木刻版藏文图像几何校正的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |