CN102737240B - 分析数字文档图像的方法 - Google Patents
分析数字文档图像的方法 Download PDFInfo
- Publication number
- CN102737240B CN102737240B CN201210037636.4A CN201210037636A CN102737240B CN 102737240 B CN102737240 B CN 102737240B CN 201210037636 A CN201210037636 A CN 201210037636A CN 102737240 B CN102737240 B CN 102737240B
- Authority
- CN
- China
- Prior art keywords
- image
- pixel
- pixels
- input picture
- block
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/414—Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/16—Image preprocessing
- G06V30/162—Quantising the image signal
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/146—Aligning or centring of the image pick-up or image-field
- G06V30/147—Determination of region of interest
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/16—Image preprocessing
- G06V30/1607—Correcting image deformation, e.g. trapezoidal deformation caused by perspective
Abstract
对输入图像进行分析,输入图像是存储在存储器中的数字化图像或来自于扫描仪的扫描图像。通过以下操作来根据输入图像形成特征图像:将输入图像划分成多个像素块,使输入图像中的每个像素块与特征图像中的单个像素相关联,以及输出特征图像以进一步分析或存储在存储器中。示例实施例从文档图像中提取并分析特征,以检测与页面区域、失真区域和书脊区域相关联的具体特性。可以对所提取的特征进行进一步分析,以在段落、行、词和字符级别上检测文档特性。
Description
技术领域
本发明涉及对文档的扫描,具体涉及对书籍的扫描。
背景技术
书籍页面的扫描图像通常具有由扫描产生的三种类型的失真。根据书籍放在扫描表面上时书籍相对于扫描方向的取向以及书脊区域在该表面上方的高度,这三种类型的失真以不同等级出现。如图1所示,当书脊在扫描表面上方时,扫描的图像常常具有阴影,阴影出现在图像中靠近书脊的地方。另外两种类型的失真由于同样的原因而出现,但是仅出现在以书脊与扫描仪传感器条平行的方式对书籍进行扫描时,称作“平行扫描情况”。在这种情况下,页面图像挤向书脊,从而离书脊较近的文本变窄并且难以辨识。除了这种“挤压”失真以外,靠近书脊的文本还向页面的中心弯曲。在本说明书中,这种类型的失真称作“弯曲失真(curvature distortion)”。上述失真不仅影响受影响区域中图像的视觉可读性,还使自动光学字符识别(OCR,optical character recognition)方法失灵,所述OCR方法通常用于将扫描的视觉信息变换成相应的文本。本发明涉及数字文档分析。当应用于扫描的书籍时,这种分析可以用于检测所扫描的文档的诸如页面区域、页面取向、文本区域以及书脊等方面。
发明内容
本发明提供了一种对数字化的或扫描的文档图像进行分析的方法和设备。本发明使用基于块的处理来创建双通道特征图像(two-channelfeature image),所述双通道特征图像指示文档图像背景和前景的特性。基于该特征图像来设计检测算法,以检测页面区域、页面取向、文本区域和书脊。
更具体地,使用特征图像来分割所扫描的书籍的图像,以映射对应于页面区域的像素并创建页面对象。例如,页面对象用于确定页面取向和检测书脊。
本发明可以应用于扫描仪和用于数字文档图像处理和操控的图像软件,这是因为本发明的组件可以被用来构建各种增强和分割方案。
结合附图,通过以下描述和权利要求,本发明的其他目的和成果将变得清楚,并且可以更全面地理解本发明。
附图说明
附图中,相同的附图标记表示相同的部分。
图1示出了厚的书籍,该书籍的书脊平行于扫描仪传感器条;
图2是使用本发明的图像捕获设备和系统的总体框图;以及
图3是本发明的总体方法的流程图。
具体实施方式
在以下详细描述中参考了附图,附图以说明的方式示出了本发明的示例实施例。在附图中,贯穿多幅图,相同的数字描述实质上相似的部分。这些实施例描述足够详细,以至于本领域技术人员能够实现本发明。可以使用其他实施例,在不脱离本发明的范围的前提下可以进行结构、逻辑和电学上的改变。此外还应理解,本发明的各种实施例虽然不同,但并不必须互相排斥。例如,在一个实施例中描述的具体特征、结构或特性可以包含在其他实施例中。因此,以下详细描述并不旨在限制,本发明的范围仅由所附权利要求及其等价物的整个范围来限定。
一般地,示例实施例涉及从图像(特别是数字化或扫描的文档)中提取特征的方法、设备和计算机可读介质。然后,这些提取的特征可以用于分析文档,以检测例如页面区域、失真或书脊。
示例实施例从数字化或扫描的图像中提取特征,并对文档进行分析,以检测具体特性。然后可以输出用于指示页面区域、失真区域和书脊区域的这些特征,以供进一步的图像分析和校正。尽管不是本发明的一部分,然而这种校正可以包括强度和扭曲校正(intensity and warpcorrection)。根据本发明的方法可以实现在诸如平台式扫描仪(flatbedscanner)之类的图像捕获设备中以及包括打印机驱动器或图像编辑软件等的软件模块中。
可以使用承载或存储有计算机可执行指令或数据结构的非暂时性(non-transitory)计算机可读介质来实现这些方法。这样的计算机可读介质可以是能够被通用或专用计算机的处理器访问的任何可用介质。例如而非限制性地,这样的计算机可读介质可以包括RAM、ROM、EEPROM、CD-ROM或其他光盘存储装置、磁盘存储装置或其他磁存储设备、或者能够用于承载或存储计算机可执行指令或数据结构形式的程序代码并且可以被通用或专用计算机的处理器访问的任何其他介质。上述示例的组合也应当包含在计算机可读介质的范围之内。
例如,计算机可执行指令包括使通用计算机或专用计算机的处理器执行特定的功能或功能组的指令和数据结构。尽管本文以特定于方法逻辑动作的语言描述了主题内容,然而应理解所附权利要求所限定的主题不必限于本文描述的特定动作。而是,本文描述的特定动作被公开为权利要求的示例实现形式。
专用计算机的示例包括:图像处理设备,如数字摄像机(数字摄像机的示例包括但不限于由总部在Owa,Suwa,Nagano,Japan的SeikoEpson Corporation制造的Epson R-D1数字摄像机);数字摄像放像机(camcorder);投影仪;打印机;扫描仪;复印机;便携式照片浏览器(photo viewer)(便携式照片浏览器的示例包括但不限于由Seiko EpsonCorporation制造的Epson P-3000或P-5000便携式照片浏览器);或便携式电影播放器;或它们的某种组合,如打印机/扫描仪/复印机组合(打印机/扫描仪/复印机组合的示例包括但不限于由Seiko Epson Corporation制造的:Epson Stylus Photo RX580、RX595或RX680,Epson StylusCX4400、CX7400、CX8400或CX9400Fax,以及Epson AcuLaserCX11NF),打印机/扫描仪组合(打印机/扫描仪组合的示例包括但不限于Epson TM-J9000、TM-J9100、TM-J7000、TM-J7100和TM-H6000III,它们全都是由Seiko Epson Corporation制造的),或数字摄像机/摄像放像机组合。图像处理设备可以包括特征提取能力,例如从图像中提取特征,然后使用所提取的特征对图像进行分析。例如,诸如平台式扫描仪等具有这种特征提取和分析能力的图像捕获设备可以包括实现示例方法300的一个或多个计算机可读介质。备选地,与图像捕获设备相连的计算机可以包括实现示例方法300的一个或多个计算机可读介质。
图2示出了示例图像捕获设备200的示意图。示例图像捕获设备200通过中间接口(intervening interface)202与主计算机250交换数据。还可以存储应用程序和图像捕获设备驱动器,以在主计算机250上访问。例如,当从应用程序接收到图像获取命令时,图像捕获设备驱动器控制命令数据向适合图像捕获设备200的格式的转换,并将转换后的命令数据发送至图像捕获设备200。驱动器还对来自图像捕获设备200的各种信号和数据进行接收和解释,并通过主计算机250向用户提供必要的信息。
当主计算机250发送了数据时,接口202接收该数据并将其存储在接收缓冲器中,所述接收缓冲器构成RAM 204的一部分。可以例如通过寻址将RAM 204划分成多个部分,并分配为不同的缓冲器,如,接收缓冲器或发送缓冲器。图像捕获设备200还可以从一个或多个捕获机构212、闪速EEPROM 210或ROM 208获得诸如数字图像数据之类的数据。例如,所述一个或多个捕获机构212可以通过扫描诸如书籍之类的源文档来产生数字图像。然后可以将该数字图像存储在RAM 204的接收缓冲器或发送缓冲器中。
例如,处理器206使用ROM 208或闪速EEPROM 210上存储的计算机可执行指令来执行特定的功能或功能组,例如本发明的方法。例如在RAM 204的接收缓冲器中的数据是数字图像的情况下,处理器206可以对该数字图像实现本发明方法的方法逻辑动作,以提取数字图像中的特征并基于所提取的特征来进一步分析图像。然后,例如在将图像显示在显示器214(例如,LCD显示器)上、传送到主计算机250以在打印机262上打印、用投影仪264投影、或存储在硬盘260上之前,可以对数字图像执行成像流水线(imaging pipeline)中的进一步处理。
现在将结合图3来讨论用于提取图像中的特征并基于所提取的特征来进一步分析图像的示例方法300。在执行方法300之前,可以以输入图像作为多种图像处理操作的目标。输入图像可以是灰度图像、二进制图像、数字彩色图像、或者彩色图像的数字化或扫描版本。可以在执行方法300之前对输入图像应用多种图像处理技术。为了便于理解,以下论述将分为下述部分:
A.输入图像,
B.特征图像形成,
C.特征图像分析和分割,
D.页面区域、页面取向和文本区域检测,
E.书脊检测,以及
F.综述
A.输入图像
在图3中,在步骤302,数字化或扫描的文档构成了数字图像x,该数字图像x具有K1×K2个像素x(r,s),其中(r,s)表示像素位置,r=1,2,...,K1表示图像行,s=1,2,...,K2表示图像列。本发明的目的是主要为了所扫描的书籍文档分析的目的,分析输入图像x的内容。然而应理解,本发明的框架便于适用于任何类型的扫描文档,如书籍、信件、支票、收据、处方等等。
B.特征图像形成
因为扫描仪典型地对扫描区域的整个表面进行扫描,并且所扫描的文档在扫描仪表面上的尺寸和位置可能显著改变,所以本发明采用特征提取(图3中的步骤304)来形成特征图像以供后续分析。为了对在扫描过程中引入数字化文档图像的各种扫描缺陷和噪声具有鲁棒性,本发明逐块地处理输入图像。即,选择由g1×g2个像素组成的块,其中g1表示块内的图像行数,g2表示块内的图像列数。该块用于提取前景和背景,前景和背景是任何文档图像的两个基本特征。为了允许高速处理,本发明将图像x中的每个像素块变换成特征图像中的单个像素(步骤306)。因此,在给定输入图像大小和块大小的情况下,特征图像z由K1/g1×K2/g2个像素组成,特征图像z是具有以下像素的双通道图像:z(m,n)=[f(m,n),b(m,n)],其中m=1,2,...,K1/g1,n=1,2,...,K2/g2。项f(m,n)和b(m,n)分别表示矢量像素(vectorial pixel)z(m,n)的前景分量和背景分量。例如,前景分量和背景分量中的每一个将是8比特值。8比特使得可以实现256个离散值。因此,图像x中的每个像素块由具有两个8比特分量的单个像素z(m,n)来表示。
因为大多数文档图像的背景都明显比前景亮(前景可以包含文本、线条、图形和图像),所以可以如下确定特征像素z(m,n)的这两个分量:
f(m,n)=min{x(r,s);(m-1)g1<r≤mg1,(n-1)g2<s≤ng2}(1)
b(m,n)=max{x(r,s);(m-1)g1<r≤mg1,(n-1)g2<s≤ng2}(2)
其中min和max分别是最小值运算符和最大值运算符。等式(1)和(2)示出了特征图像的产生。以特征图像中最左上方的像素作为示例,该像素在输入图像中的对应块是左上方的g×g块。前景值和背景值分别是该块内的最小强度值和最大强度值,如由以下等式定义的:
f(1,1)=min{x(r,s);0<r≤g1,0<s≤g2},以及
b(1,1)=max{x(r,s);0<r≤g1,0<s≤g2}。
从以上等式可以看出,本发明将输入图像x划分成像素值块,每个块与一个特征像素z(m,n)=[f(m,n),b(m,n)]相关联。通过以更小的特征图像来表示输入图像(每个像素块减小到一个像素),极大地降低了该框架中后续图像分析的计算复杂度。
C.特征图像分析和分割
根据分析目的和预期应用,上述特征提取过程可以用于产生特定尺寸的特征图像或多于一个的特征图像。参数g1和g2允许在处理速度和图像x的分割级别之间进行权衡。例如,较大的g1和g2值可以用于在页面级别上对扫描图像进行分割,而当分别在段落/页面列和行/字符级别上对图像进行分割时中等的和较小的值是有用的。
以下描述的任何分割过程都基于特征图像z的每个像素位置中分量f(m,n)和b(m,n)的评估。值f(m,n)和b(m,n)之间的小差值指示了在与特征图像中的位置(m,n)相对应的像素块中的背景和前景之间的显著相似度。例如,这可能发生在无文本(text-free)图像区域,如,扫描区域中围绕文档的文档边界和区域或者具有实线图形(solid graphics)的区域。因此,可以如下检测页面区域:
其中,θ和可调(tunable)参数,用于评估前景和背景之间的相似度,以及标识具有背景和前景分量的大贡献的像素。第一参数θ与特征图像中像素的背景值和前景值之间的差值相比较。示例值是50。第二参数定义了最低背景值。示例值是150。这些示例值是基于以下事实来选择的:文本必须具有相对于背景的最小对比度,以便可读,并且书籍图像的背景通常是亮的。项d(m,n)是尺寸与特征图像z的尺寸相同的二进制图(binary map)d中的像素。值d(m,n)=1表示特征图像中的位置(m,n)与页面区域相对应,否则二进制图d中的像素值设置为d(m,n)=0。
等式(3)并不是可以用于产生二进制对象图(binary object map)的唯一解决方案(图3中的步骤308)。为了减小参数θ和对分割性能的影响,可以如下产生二进制对象图:
其中,β是满足b(m,n)-f(m,n)<θ并且的分量b(m,n)的平均值。再次,值d(m,n)=1表示特征图像中的位置(m,n)与页面区域相对应,否则二进制图d中的像素值设置为d(m,n)=0。应理解,本发明不限于等式(3)和等式(4)的示例解决方案,本发明的框架可以灵活地用于除了这些优选实施例以外的其他解决方案。
在本发明中,处理器206通过将d(m,n)=1的相邻像素分组来对图d进行对象分割(图3中的步骤310)。该过程将图d分成N个不相交的对象 (图3中的步骤312)。每个对象由Φi来表征,其中Φi是的像素位置(m,n)的集合,其中是高度为宽度为的边界框。为了获得更好的对象分割结果,可以在创建对象之前通过图像滤波对图d进行平滑。
D.页面区域、页面取向和文本区域检测(图3中的步骤314)
根据扫描质量和分辨率以及块尺寸,对象集合O1,O2,...,ON可以由与分割目标相对应的一个或多个真对象以及多个假对象组成。因此,可以使用一组简单约束(例如,诸如对象的大小和形状等各种几何约束),使不期望的对象不被进一步考虑。这种几何约束的具体形成表示(formulation)可以根据分割目标(例如,文本页面区域分割vs字符分割)和实现策略而显著地不同。例如,为了文本页面区域检测(是本发明的应用之一),目标是去除小的对象和具有不规则长宽比(aspect ratio)的边界框的对象。该处理步骤是直接明了的,并且可以如下实现:
其中Ty和Tx表示对象的最小高度和宽度,T是对象的最大长宽比。
可以预先确定这些参数(例如,在扫描设备的校准时或者在图像软件的优化期间)以实现期望的性能,或者可以根据对象集合来自适应地确定这些参数(例如,作为在所有分割后的对象上的平均或加权平均,其中较大的权重与较大的对象相关联)。从对象列表中去除满足等式(5)中的一个或多个条件的对象,这可以伴随着将二进制图d中的对应像素d(m,n)设置为零。注意,等式(5)是示例实现方式,本发明不限于上述实施例。
为了提高这些对象的边界框的精度,可以使用对象边界细化过程。在对象的边界框或其略微放大的版本内操作时,一种可能性是分别针对图像行和列在特征图像的水平方向和垂直方向上检查具有的f(m,n)和b(m,n)超过特定阈值的像素的最大数目。这些最大数目可以被记录为垂直方向上的Ytot和水平方向上的Xtot。类似地,可以使用Yn和Xm,(m,n)∈Φi(其中Φi是原始边界框或其放大版本)来分别表示:针对Φi内的每个图像列和行,在垂直方向和水平方向上f(m,n)和b(m,n)超过特定阈值的像素的总数。该过程消除与分别不超过Ytot和Xtot的特定百分比的Yn和Xm相关联的所有边界图像行和列。可以在等式(5)中的对象去除操作之后针对留在对象列表中的所有对象重复该细化过程。
一旦完成了对象去除步骤,更新的对象集合典型地仅由期望的对象组成。在扫描书籍文档的情况下,依据所扫描的页数,结果始终是一个或两个对象。如果分割结果是两个对象,则可以基于这些对象的相对位置和/或尺寸来确定页面取向。如果结果是仅一个页面,则可以通过比较对象的高度和宽度来确定页面取向。在不确定的情况下和/或为了验证页面分割和页面取向检测结果,可以检测页面文本区域而不是页面区域。因为页面文本区域的边界应当位于页面区域内,所以检测过程例如可以如同在对象Oi的边界框内搜索图像行和列的最大值和最小值一样简单,其中f(m,n)低于特定阈值。
E.书脊检测(图3中的步骤316)
在对书籍进行扫描的情况下,例如为了剪切文本区域或分离两个页面,可能对确定书脊区域感兴趣。如果检测到两个页面例如作为对象Ou和Ov,其中1≤u≤N,1≤v≤N,u≠v,则书脊的确定可以缩减为对两个边界框坐标的简单求平均。即,假定用每个边界框的左上角和右下角将该边界框描述为和则可以按照边界框将书脊位置确定为:针对在Ov左侧的水平相邻页Ou为 和 针对在Ov上方的垂直相邻页Ou为 和 如果仅检测到一个页面,则书脊通常位于页面边界框一侧,其中特征图像z的两个通道中具有类似梯度(gradient-like)的强度下降。
检测书脊区域的另一解决方案是搜索Ou和Ov之间的间隙以找到背景值最低的像素z(m,n)。这些像素的位置可以被看作是书脊像素的位置。为了降低可能的噪声影响,可以对获得的最暗像素位置集合进行滤波或求平均,以产生鲁棒的估计。
上述两种方法的精度在某些情况下受到块大小参数g1和g2的值的限制。这些参数的值越小,可以实现的书脊检测精度越高。可以通过直接对输入图像x进行操作来实现最高精度。可能的解决方案是搜索映射到输入图像x的Ou和Ov之间的间隙以找到对方向性边缘检测器(针对水平相邻页面为水平边缘检测,针对垂直相邻页面为垂直边缘检测)的响应最强的像素位置。再次,可以通过滤波或某种其他后处理来消除可能的噪声影响。因为书脊检测解决方案对输入图像进行操作,所以可能比前两种解决方案在计算上要求更高,前两种解决方案分别利用了快速估计以及特征图像的较小尺寸。
F.综述
为了在输入图像x中显示与特征图像z相对应的任何检测结果,应当将对象或边界框坐标在垂直方向上乘以g1并在水平方向上乘以g2。这将坐标从特征图像域变换到输入图像域。
如果需要创建多个特征图像,则计算上高效的方式是首先创建具有最大目标尺寸的特征图像,然后根据该较大的特征图像来创建另一(较小的)特征图像。依据其他特征图像的目标尺寸,该方法可以迭代重复,产生特征图像金字塔。
可以在对任何特征图像进行分析之前使用低通滤波器来增强该特征图像,以消除两个通道中的异常值(outlier)。如果已知页面取向,则可以使用方向性(例如,垂直或水平)滤波器来产生期望的增强。
如果前景像素表现出比背景像素更高的强度(例如可以根据图像直方图来容易地确定这一点),则应当创建原始文档图像的取逆(inverse)版本并将其用作所提出的方法的输入。
最后,尽管本文仅针对灰度图像给出了实施例,然而本发明中提出的框架当然也可以应用于二进制图像和彩色图像。对于二进制图像,直接应用所提出的框架。对于彩色图像,一些方法是可能的。例如,一种方法是将三分量彩色数据变换成单一值(例如,使用彩色至灰度转换),然后按照与灰度数据或二进制数据的处理方式相同的方式处理这样的标量数据。另一种可能方法是逐个分量地分别对三个颜色通道中的每一个应用所提出的框架,然后组合中间结果。
尽管结合若干特定实施例描述了本发明,然而本领域技术人员显然了解通过以上描述许多其他替换、修改和改变将是清楚的。因此,本文描述的发明旨在覆盖所附权利要求的精神和范围之内的所有这样的替换、修改、应用和变型。
Claims (9)
1.一种对具有K1×K2个像素x(r,s)的输入图像x进行分析的方法,其中(r,s)表示像素位置,r=1,2,...,K1表示图像行,s=1,2,...,K2表示图像列,所述输入图像是存储在存储器中的数字化图像或来自于扫描仪的扫描图像,所述方法包括:
使用处理器通过以下操作来根据输入图像x形成特征图像z:
将输入图像x划分成多个像素块,每个像素块的块大小是g1×g2个像素,其中g1表示像素块中的图像行数,g2表示像素块中的图像列数,
使输入图像x中的每个像素块与特征图像z中的单个像素相关联,其中特征图像z由K1/g1×K2/g2个像素构成,以及
输出特征图像z以进一步分析或存储在存储器中;
其中,特征图像z是具有特征像素z(m,n)=[f(m,n),b(m,n)]的双通道图像,其中m=1,2,...,K1/g1,n=1,2,...,K2/g2,f(m,n)和b(m,n)分别表示特征像素z(m,n)的前景分量和背景分量;
其中,特征像素z(m,n)的前景分量和背景分量分别定义为:
f(m,n)=min{x(r,s);(m-1)g1<r≤mg1,(n-1)g2<s≤ng2}
b(m,n)=max{x(r,s);(m-1)g1<r≤mg1,(n-1)g2<s≤ng2}
其中min和max是最小值运算符和最大值运算符;
其中,处理器根据以下等式来检测页面:
其中,θ和是可调参数,用于评估输入图像x中前景和背景之间的相似度,以及标识具有背景分量和前景分量的大贡献的像素,d(m,n)是尺寸与特征图像z的尺寸相同的二进制图d中的像素,值d(m,n)=1表示特征图像z中的位置(m,n)与页面区域相对应。
2.根据权利要求1所述的方法,其中,处理器根据以下等式来检测页面:
其中,β是满足b(m,n)-f(m,n)<θ并且的分量b(m,n)的平均值,d(m,n)是尺寸与特征图像z的尺寸相同的二进制图d中的像素,值d(m,n)=1表示特征图像中的位置(m,n)与页面区域相对应。
3.根据权利要求1所述的方法,其中,处理器通过将d(m,n)=1的相邻像素分组,对二进制图d进行对象分割。
4.根据权利要求3所述的方法,其中,处理器将二进制图d分成N个不相交对象其中,i=1,2,...,N,每个对象由Φi来表征,Φi是的像素位置(m,n)的集合,是高度为且宽度为的边界框。
5.根据权利要求4所述的方法,其中,处理器如下去除小对象和具有不规则长宽比的边界框的对象:
其中Ty和Tx分别表示对象的最小高度和宽度,T是对象的最大长宽比。
6.根据权利要求4所述的方法,其中,处理器分析对象,以通过将对象的高度与对象的宽度相比较来检测输入图像x的页面取向。
7.根据权利要求4所述的方法,其中,处理器分析对象,以检测输入图像x中的书脊。
8.一种对具有K1×K2个像素x(r,s)的输入图像x进行分析的设备,其中(r,s)表示像素位置,r=1,2,...,K1表示图像行,s=1,2,...,K2表示图像列,所述设备包括:
图像捕获单元,用于捕获输入图像x;
存储器,用于存储输入图像x;
用于将输入图像x划分成多个像素块的装置,每个像素块的块大小是g1×g2个像素,其中g1表示像素块中的图像行数,g2表示像素块中的图像列数;
用于使输入图像x中的每个像素块与特征图像z中的单个像素相关联的装置,其中特征图像z由K1/g1×K2/g2个像素构成;以及
用于输出特征图像z以进一步分析或存储在存储器中的装置;
其中,特征图像z是具有特征像素z(m,n)=[f(m,n),b(m,n)]的双通道图像,其中m=1,2,...,K1/g1,n=1,2,...,K2/g2,f(m,n)和b(m,n)分别表示特征像素z(m,n)的前景分量和背景分量;
其中,特征像素z(m,n)的前景分量和背景分量分别定义为:
f(m,n)=min{x(r,s);(m-1)g1<r≤mg1,(n-1)g2<s≤ng2}
b(m,n)=max{x(r,s);(m-1)g1<r≤mg1,(n-1)g2<s≤ng2}
其中min和max是最小值运算符和最大值运算符;
其中,所述设备还包括根据以下等式来检测页面的装置:
其中,θ和是可调参数,用于评估输入图像x中前景和背景之间的相似度,以及标识具有背景分量和前景分量的大贡献的像素,d(m,n)是尺寸与特征图像z的尺寸相同的二进制图d中的像素,值d(m,n)=1表示特征图像z中的位置(m,n)与页面区域相对应。
9.根据权利要求8所述的设备,其中,图像捕获单元是扫描单元。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US13/075,978 US8306335B2 (en) | 2011-03-30 | 2011-03-30 | Method of analyzing digital document images |
US13/075,978 | 2011-03-30 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102737240A CN102737240A (zh) | 2012-10-17 |
CN102737240B true CN102737240B (zh) | 2014-10-29 |
Family
ID=46926913
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201210037636.4A Active CN102737240B (zh) | 2011-03-30 | 2012-02-17 | 分析数字文档图像的方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US8306335B2 (zh) |
JP (1) | JP5994279B2 (zh) |
CN (1) | CN102737240B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8457403B2 (en) * | 2011-05-19 | 2013-06-04 | Seiko Epson Corporation | Method of detecting and correcting digital images of books in the book spine area |
US8559063B1 (en) | 2012-11-30 | 2013-10-15 | Atiz Innovation Co., Ltd. | Document scanning and visualization system using a mobile device |
US9588675B2 (en) | 2013-03-15 | 2017-03-07 | Google Inc. | Document scale and position optimization |
US20170083196A1 (en) * | 2015-09-23 | 2017-03-23 | Google Inc. | Computer-Aided Navigation of Digital Graphic Novels |
US10346723B2 (en) * | 2016-11-01 | 2019-07-09 | Snap Inc. | Neural network for object detection in images |
US11741732B2 (en) * | 2021-12-22 | 2023-08-29 | International Business Machines Corporation | Techniques for detecting text |
CN114170423B (zh) * | 2022-02-14 | 2022-06-28 | 成都数之联科技股份有限公司 | 一种图像文档版面识别方法、装置及其系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6806980B2 (en) * | 2000-12-28 | 2004-10-19 | Xerox Corporation | Adaptive illumination correction of scanned images |
CN101106630A (zh) * | 2006-07-14 | 2008-01-16 | 三星电子株式会社 | 图像处理设备和方法 |
CN101833746A (zh) * | 2010-04-23 | 2010-09-15 | 北京大学 | 一种数字图像中可逆水印的嵌入方法及其提取方法 |
Family Cites Families (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3217534B2 (ja) * | 1993-04-21 | 2001-10-09 | オリンパス光学工業株式会社 | 画像2値化処理装置 |
US6307962B1 (en) | 1995-09-01 | 2001-10-23 | The University Of Rochester | Document data compression system which automatically segments documents and generates compressed smart documents therefrom |
JP2000261653A (ja) * | 1999-03-09 | 2000-09-22 | Hitachi Ltd | 画像処理装置 |
JP2001043312A (ja) * | 1999-05-26 | 2001-02-16 | Ricoh Co Ltd | 文書画像処理装置 |
WO2001011864A2 (en) | 1999-08-11 | 2001-02-15 | Asci, Inc. | System and method for processing optically scanned documents |
NL1015943C2 (nl) * | 2000-08-16 | 2002-02-19 | Ocu Technologies B V | Interpretatie van gekleurde documenten. |
US6771836B2 (en) * | 2001-06-21 | 2004-08-03 | Microsoft Corporation | Zero-crossing region filtering for processing scanned documents |
JP4375069B2 (ja) * | 2004-03-19 | 2009-12-02 | カシオ計算機株式会社 | 画像処理装置、画像処理方法及びプログラム |
US7693329B2 (en) | 2004-06-30 | 2010-04-06 | Lexmark International, Inc. | Bound document scanning method and apparatus |
US7379593B2 (en) * | 2005-12-21 | 2008-05-27 | Xerox Corporation | Method for image segmentation from proved detection of background and text image portions |
US20070201743A1 (en) * | 2006-02-28 | 2007-08-30 | Sharp Laboratories Of America, Inc. | Methods and systems for identifying characteristics in a digital image |
JP4764231B2 (ja) * | 2006-03-31 | 2011-08-31 | キヤノン株式会社 | 画像処理装置、制御方法、コンピュータプログラム |
US7840071B2 (en) * | 2006-12-12 | 2010-11-23 | Seiko Epson Corporation | Method and apparatus for identifying regions of different content in an image |
US7899247B2 (en) * | 2007-01-24 | 2011-03-01 | Samsung Electronics Co., Ltd. | Apparatus and method of segmenting an image according to a cost function and/or feature vector and/or receiving a signal representing the segmented image in an image coding and/or decoding system |
JP4545766B2 (ja) * | 2007-02-21 | 2010-09-15 | シャープ株式会社 | 画像処理装置、画像形成装置、画像読取装置、画像処理プログラムおよび記録媒体 |
US8355186B2 (en) * | 2009-02-10 | 2013-01-15 | Fuji Xerox Co., Ltd. | Systems and methods for interactive semi-automatic document scanning |
-
2011
- 2011-03-30 US US13/075,978 patent/US8306335B2/en active Active
-
2012
- 2012-02-17 CN CN201210037636.4A patent/CN102737240B/zh active Active
- 2012-02-21 JP JP2012034850A patent/JP5994279B2/ja active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6806980B2 (en) * | 2000-12-28 | 2004-10-19 | Xerox Corporation | Adaptive illumination correction of scanned images |
CN101106630A (zh) * | 2006-07-14 | 2008-01-16 | 三星电子株式会社 | 图像处理设备和方法 |
CN101833746A (zh) * | 2010-04-23 | 2010-09-15 | 北京大学 | 一种数字图像中可逆水印的嵌入方法及其提取方法 |
Also Published As
Publication number | Publication date |
---|---|
JP2012212425A (ja) | 2012-11-01 |
US8306335B2 (en) | 2012-11-06 |
CN102737240A (zh) | 2012-10-17 |
US20120250105A1 (en) | 2012-10-04 |
JP5994279B2 (ja) | 2016-09-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102737240B (zh) | 分析数字文档图像的方法 | |
EP3309703B1 (en) | Method and system for decoding qr code based on weighted average grey method | |
Gebhardt et al. | Document authentication using printing technique features and unsupervised anomaly detection | |
CN111401372B (zh) | 一种扫描文档图文信息提取与鉴别的方法 | |
US8457403B2 (en) | Method of detecting and correcting digital images of books in the book spine area | |
CN107491730A (zh) | 一种基于图像处理的化验单识别方法 | |
CN111127339B (zh) | 一种文档图像的梯形畸变矫正方法及装置 | |
RU2659745C1 (ru) | Реконструкция документа из серии изображений документа | |
JP5616308B2 (ja) | 文字の形状特徴を使用した文字比較による文書改変検知方法 | |
CN112183038A (zh) | 一种表格识别套打方法、计算机设备及计算机可读存储介质 | |
WO2007127085A1 (en) | Generating a bitonal image from a scanned colour image | |
CN110598566A (zh) | 图像处理方法、装置、终端和计算机可读存储介质 | |
CN111914838A (zh) | 一种基于文本行识别的车牌识别方法 | |
CN110689003A (zh) | 低照度成像车牌识别方法、系统、计算机设备及存储介质 | |
US8442348B2 (en) | Image noise reduction for digital images using Gaussian blurring | |
EP2545498B1 (en) | Resolution adjustment of an image that includes text undergoing an ocr process | |
JP5201184B2 (ja) | 画像処理装置及びプログラム | |
CN111027545A (zh) | 卡证图片标志检测方法、装置、计算机设备及存储介质 | |
Chakraborty et al. | Marginal Noise Reduction in Historical Handwritten Documents--A Survey | |
Kshetry | Image preprocessing and modified adaptive thresholding for improving OCR | |
CN111612045B (zh) | 一种获取目标检测数据集的通用方法 | |
CN114241486A (zh) | 一种提高识别试卷学生信息准确率的方法 | |
CN110298236A (zh) | 一种基于深度学习的盲文图像自动识别方法和系统 | |
Konya et al. | Adaptive methods for robust document image understanding | |
Lettner et al. | Registration of multi-spectral manuscript images as prerequisite for computer aided script description |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |