CN100559387C - 图像处理装置和方法,图像形成装置 - Google Patents
图像处理装置和方法,图像形成装置 Download PDFInfo
- Publication number
- CN100559387C CN100559387C CNB200710001946XA CN200710001946A CN100559387C CN 100559387 C CN100559387 C CN 100559387C CN B200710001946X A CNB200710001946X A CN B200710001946XA CN 200710001946 A CN200710001946 A CN 200710001946A CN 100559387 C CN100559387 C CN 100559387C
- Authority
- CN
- China
- Prior art keywords
- image
- pixel
- type
- unit
- view data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/413—Classification of content, e.g. text, photographs or tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/18—Extraction of features or characteristics of the image
- G06V30/186—Extraction of features or characteristics of the image by deriving mathematical or geometrical properties from the whole image
- G06V30/187—Frequency domain transformation; Autocorrelation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Mathematical Analysis (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Physics (AREA)
- Mathematical Optimization (AREA)
- Algebra (AREA)
- Artificial Intelligence (AREA)
- Character Input (AREA)
- Image Analysis (AREA)
- Processing Or Creating Images (AREA)
Abstract
使用基于版面(文本和照片或者画面的大致空间排列和分布)计算的图像数据的特征量对图像数据进行分类以识别图像数据的图像类型。基于该结果,为版面分析选择与图像数据的类型相关联的区域提取方法。基于该区域提取方法将图像数据划分为区域。
Description
技术领域
本发明涉及用于分析图像版面的技术。
背景技术
本文件通过参考引入于2006年1月18号在日本申请的日本优先权文件2006-010368的全部内容。
图像通过诸如扫描仪或者数码相机的图像输入设备输入到计算机中,并且将图像划分为诸如字符,文本行,段落,以及栏的组分。这种处理通常称为“几何版面分析”或者“页面分割”。几何版面分析或页面分割在很多情况下是在二进制图像上实现的。此外,几何版面分析或页面分割后面接着作为预处理的“倾斜校正”,以校正输入上发生的倾斜。以这种方式进行倾斜校正的二进制图像的几何版面分析或页面分割大致分为两种方案,即,从上向下分析和从下往上分析。
从上向下分析是通过将页面从大的组分划分为小的组分来实现的。该分析是其中大的组分以这样一种方式划分为小的组分的方案,即,将页面划分为栏,将每栏划分为段落,并将每个段落划分为文本行。从上向下分析允许通过基于对于页面版面结构的假定而使用模型(例如,在曼哈顿版面(Manhattan Layout)中,文本行为矩形或者处于栏的形状)的有效计算。同时,从上向下分析也具有这样的缺点,即,当数据不是基于该假定的时候可能发生不期望的错误。对于复杂版面,建模通常很复杂,因而处理很困难。
下面接着说明从下往上分析。如同在日本专利申请第2000-067158和2000-113103号中所描述的,从下往上分析通过参照相邻的组分之间的位置关系来将组分合并在一起而开始。这种分析是其中以这样的方式将较小的组分组合来形成较大的组分的方案,即,将连接的组分组合为文本行,并将文本行组合为栏。然而,传统的从下往上分析是基于局部信息的片段的,因此,该方法可以支持多种版面,而对于整个页面版面的假定没有很多依赖性,但是存在可能累积局部错误计算的缺点。例如,如果将两个不同的栏上的两个字符错误地合并到一个文本行中,可能将这两个不同的栏错误地提取为一栏。合并组分的传统技术需要知道诸如如何基于每种语言排列字符和字符串方向(垂直/水平)的特性。
如上所述,这两种方案是互补的,但是作为桥接这两种方案之间的“空隙”的方案,存在使用二进制图像非字符部分(即,背景或者所谓的白背景)的方法,如第5647021号美国专利和第5430808号美国专利中所揭示的。使用背景或白背景的优点如下:(1)该方法是独立于语言的(在很多语言中将白背景用作分隔符)。此外,不需要知道文本行方向(水平书写/垂直书写)。
(2)该方法是一种整体处理,从而,累积局部错误计算的可能性较小。
(3)该方法甚至可以灵活地支持复杂的版面。
这些方案的优点和缺点,以及各方案处理的很好或者处理的不好的图像类型总结如下:
(1)优点
在从下往上类型中,方案可以对任何版面的某些内容表现出性能。这是一种诸如“字符→字符串→文本行→文本块”的构造类型的处理,因而,不需要版面结构的模型。
在从上向下类型中,当可以使用基于版面结构的模型的信息时,该方案表现出优点。由于可以使用整体信息,不会累积局部错误。此外,从上向下类型可以实现与语言无关的分析。
(2)缺点
在从下往上类型中,会累积局部错误。对于字符,字符串,以及文本行的结构,语言依赖性是不可避免的。
在从上向下类型中,当假定的模型不合适的时候,该方案不能良好工作。
(3)处理的很好的图像类型
从下往上类型适用于文本很少的图像。很少发生局部错误,并且由于文本很少,只需要很少量的计算来合并它们。
从上向下类型适用于字符为主并且栏的排列是结构化的文件(报纸,杂志文章,商业文件)。
(4)处理的不好的图像类型
由于很容易出现局部错误,从下往上类型不适用于其中版面密集排列的图像(报纸等)。
从上向下类型不适用于其中画面为主(体育报纸,广告)或者其中栏的排列不是结构化的图像。
如同可以看到的,从下往上版面分析和从上向下版面分析是互补的,并且存在仅进行文本区域的提取的几种类型的版面分析算法。
更具体地,存在这两种方案适用和不适用的图像类型。因此,期望可以根据图像类型使用适当的算法。这看起来是一种简单的想法,然而实际上,由于直到将各区域区分开为止不能发现图像的类型,所以这是相当复杂的。换而言之,类型分类所需的区域划分需要允许高速计算的高表现力的图像特征。
发明内容
本发明的一个目的是至少部分地解决传统技术中的问题。
根据本发明的一个方面,一种分析图像的版面的图像处理装置包括:图像特征计算单元,用于基于图像的版面计算图像数据的图像特征量;图像类型识别单元,用于使用图像特征量识别图像数据的图像类型;存储单元,用于存储关于图像类型的信息,每一图像类型与区域提取方法相关联;选择单元,参照存储单元中的信息,为版面分析选择与图像数据的图像类型相关联的区域提取方法;以及区域提取单元,基于区域提取方法将图像数据划分为区域。
根据本发明的另一个方面,一种用于在纸张上打印图像的图像形成装置包括:图像读取器,用于读取图像数据;图像特征计算单元,用于基于图像的版面计算图像数据的图像特征量;图像类型识别单元,用于使用图像特征量识别图像数据的图像类型;存储单元,用于存储关于图像类型的信息,每一图像类型与区域提取方法相关联;选择单元,参照存储单元中的信息,为版面分析选择与图像数据的图像类型相关联的区域提取方法;以及区域提取单元,基于区域提取方法将图像数据划分为区域。
根据本发明的还有另一个方面,一种用于分析图像的版面的图像处理方法包括:基于图像的版面计算图像数据的图像特征量;使用图像特征量识别图像数据的图像类型;存储关于图像类型的信息,每一图像类型与区域提取方法相关联;参照所述信息,为版面分析选择与图像数据的图像类型相关联的区域提取方法;以及基于区域提取方法将图像数据划分为区域。
根据本发明的还有另一个方面,一种包括计算机可用介质的计算机程序产品,该介质上包含了计算机可读程序代码,当在计算机上执行时,该代码使得计算机执行上述方法。
通过结合附图阅读本发明的当前优选实施例的下面详细描述,将更好地理解本发明的上述和其他目标,特征,优点以及技术和工业重要性。
附图说明
图1是用于说明根据本发明的第一实施例的图像处理装置中的电连接的示意图;
图2是由图1所示的CPU实现的执行版面分析处理的图像处理装置的功能框图;
图3是版面分析处理的示意流程图;
图4是图2所示的图象特征量计算单元进行的图像特征量计算处理的示意流程图;
图5是块分类处理的示意流程图;
图6是用于说明多分辨率处理的示意图;
图7是用于计算高阶自相关函数的掩模图案的例子;
图8A到图8F是块分类的例子的示意图;
图9是基于图像类型的区域提取方法选择的例子的流程图;
图10是用于说明基于从上向下类型区域提取方法的版面分析处理的基本方案的示意图;
图11A和图11B是用于说明对于图8B的图像的区域提取结果的示意图;
图12是根据本发明第二实施例的数字多功能产品(MFP)的外部透视图;以及
图13是根据本发明第三实施例的服务器-客户端系统的示意图。
具体实施方式
下面参考附图详细描述本发明的范例实施例。
图1是用于说明根据本发明的第一实施例的图像处理装置1中的电连接的示意图。图像处理装置1为诸如个人计算机(PC)的计算机。图像处理装置1包括控制图像处理装置1的部件的中央处理单元(CPU)2,诸如只读存储器(ROM)3和随机访问存储器(RAM)4的用于存储信息的主存储器设备5,诸如硬盘驱动器(HDD)6的用于存储数据文件(例如,彩色位图图像数据)的从存储设备7,诸如光盘只读存储器(CD-ROM)驱动器的用于存储信息、将信息分配到外部设备并从外部设备获取信息的可移动磁盘驱动器8。图像处理装置1进一步包括用于通过网络9与其他计算机传递信息的网络接口10,诸如阴极射线管(CRT)或者液晶显示器(LCD)的用于通知操作者处理进度和结果的显示设备11,当操作者输入指令和信息到CPU 2时使用的键盘12,以及诸如鼠标的指向设备13。总线控制器控制要在部件之间进行发送/接收以进行操作的数据。
说明了使用普通的PC作为图像处理装置1,但不局限于此。图像处理装置1可以是称为个人数字助理(PDA),掌上型电脑PC,移动电话,个人便利电话系统(PHS)的便携式信息终端。
在图像处理装置1中,当用户打开电源,CPU 2开始ROM 3中称为加载器的程序的执行,并将控制计算机的硬件和软件的称为操作系统的程序从HDD 6加载到RAM 4中以启动操作系统。操作系统根据用户的操作开始程序,载入信息,并存储信息。已知Windows(注册商标)和UNIX(注册商标)是典型的操作系统。在操作系统上运行的操作程序称为应用程序。
图像处理装置1将图像处理程序作为应用程序存储在HDD 6中。HDD 6在这个意义上作为存储图像处理程序的存储介质。
通常,要安装到诸如图像处理装置1的HDD 6的从存储设备7中的应用程序记录在包括诸如CD-ROM和数字视频光盘只读存储器(DVD-ROM)的光信息记录介质以及诸如软盘(FD)的磁介质的存储介质8a中。将记录在存储介质8a中的应用程序安装到诸如HDD 6的从存储设备7上。从而,包括诸如CD-ROM和DVD-ROM的光信息记录介质以及诸如FD的磁介质的具有可移动性的存储介质8a也可以作为用于存储图像处理程序的存储介质。图像处理程序可以存储在通过网络接口10连接到诸如互联网的网络的计算机中,从网络下载,并安装到诸如HDD 6的从存储设备7中。图像处理程序也可以通过诸如互联网的网络提供和分配。
当在图像处理装置1中开始了操作系统上的图像处理程序的运行时,CPU2根据图像处理程序执行各种类型的计算处理,并控制这些部件的整体操作。下面说明CPU2执行的计算处理中作为第一实施例的特征的版面分析处理。
偶尔地,如果强调实时性能,需要加速该处理。为了这样做,期望独立地提供逻辑电路(未示出)并且由逻辑电路的操作执行各种计算处理。
图2是由CPU 2实现的执行版面分析处理的图像处理装置1的功能框图。图3是版面分析处理的示意流程图。图像处理装置1包括图像输入处理器21,图像特征量计算单元22,图像类型识别单元22,区域提取方法选择器24,区域提取单元25,以及存储单元26。下面说明各单元的操作和功能。
图像输入处理器21进行图像输入的倾斜校正(skew correction),或者当输入彩色图像时执行图像的预处理。具体地,倾斜校正校正图像中的倾斜,并且预处理为将图像转换为单色灰度色标图像。
图像特征量计算单元22输出整个图像的特征量。图4为图像特征量计算单元22执行的图像特征量计算处理的示意流程图。首先,将图像输入专有的(exclusively)划分为相同大小的矩形或者方形块(步骤S1:块划分单元),并且将每个块归类为三种类型“画面”,“文本”和“其他”中的任何一个(步骤S2:块分类单元)。接着,基于所有块的分类的结果计算整个图像的图像特征量(步骤S3,计算单元)。最后,输出整个图像的图像特征量(步骤S4)。下面说明各步骤的操作。
(1)划分为块(步骤S1)
将输入图像划分为诸如,例如1cm×1cm的正方形的相同大小的块(如果分辨率为200dpi,则为80像素×80像素,而如果分辨率为300dpi,则为120像素×120像素)。
(2)块的分类(步骤S2)
将每个块归类为三种类型“画面”,“文本”和“其他”中的任何一个。该处理的流程如图5所示,下面说明其细节。
如图5所示,首先,通过将要处理的块的图像缩减到具有大约100dpi的低分辨率而生成图像I(步骤S11:图像生成单元),对于分辨率缩减的数量设置阈值L(步骤S12),并且初始化分辨率缩减计数k(k←0)(步骤S13)。执行步骤S10到S13的原因是,如图6所示,从图像I并且还从具有较低分辨率的图像中提取特征。其中细节将在后面说明。例如,如果对于分辨率缩减的数量设置阈值L为2,获得三个图像,即图像I,具有1/2分辨率的图像I1,以及具有1/4分辨率的图像I2,并且从三个图像中提取特征。
当分辨率缩减计数k没有达到阈值L(步骤S14为“是”),则通过对从在步骤S11生成的图像I将分辨率缩减到1/2k来获得图像Ik(k=0,......,L)(步骤S15),并将图像Ik二进制化(步骤S16:二进制化单元)。在二进制图像中,黑色像素为值1而白色像素为值0。
接着,从具有1/2k的分辨率的二进制化的图像Ik中计算M维特征向量fk(步骤S17),接着,将分辨率缩减计数k递增1(k←k+1)(步骤S18)。
下面说明从通过二进制化图像Ik(k=0,......,L)获得的图像中提取特征的方法。将自相关函数扩展到更高阶(N阶)来获得“更高阶自相关函数(N阶自相关函数)”,该函数由下面的对于位移方向(S1,S2,......,SN)的方程来定义,其中I(r)为屏幕中的目标图像。
其中求和∑是整个图像中的像素r的相加。因此,可以想到,存在取决于阶数和位移方向(S1,S2,......,SN)的无限数量的更高阶自相关函数。然而,为了简便起见,在本例子中更高阶自相关函数的阶数N为直到2。另外,将位移方向限制到参考像素r周围的3×3像素的局部区域。如图7所示,除了通过平行移动获得的等价特征之外,二进制图像特征的数量为总共25个。以这样的方式计算每个特征,即,对于整个图像,将局部图案中的对应像素的值的乘积简单地相加起来。
例如,通过对于整个图像将每个乘积(参考像素r处的灰度值和参考像素r右侧相邻点处的灰度值的乘积)相加来计算对应于“No.3”局部图案的特征。以这种方式,从具有1/2k的分辨率的图像中计算M=25维特征向量fk=(g(k,1),......,g(k,25))。这里,执行图像特征量计算单元的功能和相加单元的功能。
重复步骤S15到S18的处理(特征向量计算单元)直到在步骤S18递增的分辨率缩减计数k超过阈值L(步骤S14为“否”)。
当在步骤S18递增的分辨率缩减计数k超过(或不小于)阈值L(步骤S14为“否”),基于特征向量f0,......,fL将块分类为“画面”,“文本”和“其他”中的任何一个(步骤S19:分类单元)。
下面详细说明对块进行分类的方法。首先,从M=25维特征向量fk=(g(k,1),......,g(k,25))生成(25xL)维特征向量x=(g(0,1),......,g(0,25),......,g(L,1),......,g(L,25))。为了使用该块的特征向量x对块进行分类,需要前面的学习(learning)。
从而,在第一实施例中,用于学习的数据分类为诸如没有字符的数据和带有字符的数据的两种类型,以计算各自的特征向量x。此后,通过平均各特征向量x,预先计算了字符像素的特征向量p0和非字符像素的特征向量p1。接着,将从要进行分类的块图像获得的特征向量x分解为已知的特征向量p0和特征向量p1的线性组合,从而组合系数a0和a1分别代表了字符像素和非字符像素对于该块的比率,或者指示了该块的“字符类似性”或者“非字符类似性”。能够进行这种分解的原因是因为:基于更高阶局部自相关的特征在屏幕上的目标位置不改变并且对于目标的数量具有可加性。
特征向量x分解如下:
x=a0·P0+a1·p1=FTa+e
其中e为误差向量,F=[p0,p1]T,而a=(a0,a1)T。使用最小平方方法给出如下的最优组合系数向量:
a=(FFT)·Fx
通过对每个块的指示“非字符类似性”的参数a1执行阈值处理,将块分类到“画面”,“非画面”,以及“不确定”。如果任何块被分类到了“不确定”或者“非画面”并且指示“字符类似性”的参数a0为阈值或者更大,将块分类到“文本”,而如果该条件不成立,将块分类到“其他”。块分类的例子如图8A到图8F所示。在图8A到图8F的例子中,黑色部分代表“文本”,灰色部分代表“画面”,而白色部分代表“其他”。
(3)图像特征量的计算(步骤S3)
基于块分类的结果来计算图像特征量以区分图像的类型。具体地,
·文本和画面对于块的分别的比率
·密度比率:版面如何排列(版面的排列在窄部分有多紧密)。
·文本和画面的分散度:计算文本和图片在纸上如何分散和分布。特别地,计算下面的五个图像特征量。
·文本率Rt∈[0,1]:分类为“文本”的块(多个块)对于所有的块的比率。
·非文本率Rp∈[0,1]:分类为“画面”的块(多个块)对于所有的块的比率。
·版面密度D∈[0,1]:分类为“文本”和“画面”的数量的块的面积之和除以绘图区域的面积。
·文本的分散度St(>0):用图像的面积将文本块x和y方向的空间分布的方差和协方差矩阵的行列式归一化。
·非文本的分散度Sp(>0):用图像的面积将画面块x和y方向的空间分布的方差和协方差矩阵的行列式归一化。
表1显示了对于图8A到图8F的例子计算的图像特征量的计算结果。
表1
(a) | (b) | (c) | (d) | (e) | (f) | |
文本和画面块的百分比 | 25.2%65.9% | 43.4%5.5% | 26.4%0.0% | 9.3%65.9% | 48.3%45.0% | 37.9%0.0% |
密度 | 94.3% | 71.0% | 30.5% | 75.2% | 96.9% | 63.8% |
文本和画面块的分散度 | 1.131.24 | 0.780.07 | 1.210.0 | 1.440.96 | 0.980.86 | 0.620.0 |
图像类型识别单元23使用图像特征量计算单元22计算的图像特征量对图像类型进行分类和识别。在第一实施例中,通过使用图像特征量计算单元22计算的特征量,以例如线性判别函数更容易地表示了文件的版面类型“适用从下向上版面类型分析还是适用从上向下版面类型分析”。
·大部分是画面而文本很少的版面类型:满足下面的行列式函数以致Rp单调增加而Rt单调减少的版面类型。
Rp-a0·Rt-a1>0(a0>1)
更特别地,将具有很大照片或者画面的版面,或者具有很多小照片的版面分类到这种类型。
·具有低版面密度的版面类型(简单结构):满足下面的行列式函数以致D和Rt单调减少的版面类型。
-D-b0·Rt+b1>0(b0,b1>0)
更特别地,将不复杂并具有简单结构的版面分类到这种类型。具有大画面或者照片的版面引起版面密度变高,因而,这种版面通常不以这种类型出现。
·具有分散在页面上的很少文本的版面类型(非结构化文件):满足下面的行列式函数以致Rt单调减少而St单调增加的版面类型。
St-c0·Rt-c1>0(c0>0)
更特别地,将其中照片和画面对于页面的分别的比率不是这么高但是每个照片或者每个画面伴随有文本的版面分类到这种类型。
表2显示了对于图8A到图8F的例子的类型识别的例子。
表2
低版面密度 | 分散在页面上的很少文本 | 大部分是画面,很少文本 | |
(a) | ○ | ○ | |
(b) | |||
(c) | ○ | ○ | |
(d) | ○ | ○ | |
(e) | |||
(f) | ○ |
○:[适用从下向上类型版面分析或者适用从上向下类型版面分析]
区域提取方法选择器24基于图像类型识别单元23中将图像分类为类型的结果选择一种区域提取方法来进行版面分析。例如,将图像类型和图9所示的区域提取方法以一种相关联的方式存储在存储单元26中,并且可以根据图像类型选择任何一个区域提取方法。
更特别地,在图9中,当将版面分类为“具有低版面密度的版面类型(简单结构)”(对应于图8C和图8F)时,选择从上向下区域提取方法。当将版面分类为“具有分散在页面上的很少文本的版面类型(非结构化文件)”(对应于图8A)时,选择从下向上区域提取方法。当将版面分类为“大部分是画面,很少文本的版面类型”(对应于图8D)时,选择从下向上区域提取方法。当将版面分类为不是上面的版面类型(对应于图8B和图8E)时,选择从上向下区域提取方法。
根据以这种方式选择的区域提取方法改变参数。当将会选择多个区域提取方法时,例如,可以将优先级赋给版面类型,并且优先选择用于具有高优先级的版面的区域提取方法。
区域提取单元25基于区域提取方法选择器24选择的区域提取方法将图像数据划分为区域。
下面简要说明图像处理装置1的CPU 2执行的使用从上向下类型的区域方法的版面分析处理。为接收版面分析处理的图像数据提供没有一般性损失的二进制图像倾斜校正,并且字符由黑色像素代表。当原始图像是彩色图像或者灰色图像时,对原始图像简单地应用通过二进制化的字符提取的预处理。如图10所示,实施根据第一实施例的使用从上向下类型的区域提取方法的版面分析处理的基本方案,从而通过执行基于从低到高的密度的递归划分的层次化处理,实现该处理的效率。
概略地讲,首先,对于整个页面将作为至少一个最大白色块集合的提取的结束条件的下限设置到大的数值,从而以大致的尺度进行流程。在这个阶段,使用提取的白色块集合作为将页面划分为一些区域的分隔符。接着,对于每个区域将作为至少一个白色块集合的提取的结束条件的下限设置到小于之前设定值的数值,并且再次提取最大的白色块集合来实现更精细的划分。循环地重复该处理。作为层次化处理中至少一个最大白色块集合的提取的结束条件的下限,根据每个区域的大小和可能性来简单地设定。除了作为其中的结束条件的下限,处理中可以包括关于白色块集合的期望的形状和大小的限制条件。例如,将不是作为区域分隔符的适当形状的白色块集合排除。
排除不是作为区域分隔符的适当形状的白色块集合的理由是很可能长度很短或者宽度太窄的白色块集合是字符之间的空间。可以根据区域内估计的字符大小来确定长度和宽度的限制条件。使用从上向下类型的区域提取方法的版面分析处理在申请号为2005-000769的日本专利申请(由本发明的申请人提交)中有详细说明。
要指出的是,使用从上向下类型的区域提取方法的版面分析处理不局限于上述方法。
另一方面,公开号为2000-067158和2000-113103的日本专利申请中描述的方法适用于使用从下向上类型的区域提取方法的版面分析处理,从而,略去对这种处理的说明。
图11A和图11B分别显示了通过从上向下类型的区域提取方法的版面分析处理,分别对于图8B所示的图像的文本区域提取和照片区域提取的结果。
在第一实施例中,使用基于版面(文本和照片或者画面的大致空间排列和分布)计算的图像数据的图像特征量来对图像数据进行分类以识别图像数据的类型。基于该结果,选择与图像数据的类型相关联的区域提取方法用于版面分析。根据区域提取方法将图像数据划分为区域。这允许通过根据版面轮廓(文本和照片或者画面的大致空间排列和分布)表征图像类型的图像特征量的高速计算,还允许选择适合于图像数据的类型的用于版面分析的任何区域提取方法。从而,可以改进图像的区域提取的性能。
在根据第一实施例的“(2)块的分类(步骤2)”中,使用矩阵F,为从块中计算的(25xL)维特征向量x计算由指示块的“字符类似性”或者“非字符类似性”的系数分量构成的系数向量a,但是计算不局限于此。例如,可以使用从学习数据计算的特征向量x并使用学习数据伴随的教师(teacher)信号(其指示字符或者非字符)来构造识别函数,预先执行“从教师学习”。例如,可以简单地使用已有数据来作为学习和识别函数。已有数据包括线形判别分析和线形判别函数,还包括神经网络的误差后传(error backwardpropagation)和网络的加权系数。对于要分类的块计算的特征向量x,可以使用预先计算的识别函数将块分类为“画面”,“文本”和“其他”中的任何一个。
根据第一实施例在“(2)块的分类(步骤2)”中从二进制图像提取特征,但是也可以不是从二进制图像而是从多级图像提取。在这种情况下,3×3附近的局部图案的数量变为35。这是因为必须计算总共10个相关值。更具体地,10个值包括一阶自相关中的目标像素灰度值的平方,二阶自相关中的目标像素灰度值的三次方,目标像素灰度值与相邻像素灰度值的平方的乘积,对于八个相邻像素计算该乘积。在二进制图像中,由于灰度值仅仅是1或0,即使灰度值取平方或者三次方,这些值也不会从它们的原始值改变,但是在多级图像中,应该考虑这些情况。
根据这个,特征向量fk的维度变为M=35,并且计算特征向量fk=(g(k,1),......,g(k,35))。此外,(35xL)维特征向量x=(g(0,1),......,g(0,35),......,g(L,1),......,g(L,35))用于块的分类。
下面参考图12说明本发明的第二实施例。将相同的参考号码分配给与第一实施例中相同的那些部分,并且略去对这些部分的描述。
在第一实施例中,使用诸如PC的计算机作为图像处理装置1,但是在第二实施例中,使用安装在数字多功能产品MFP中的信息处理器作为图像处理装置1。
图12是根据第二实施例的数字MFP 50的外部透视图。数字MFP 50包括作为图像读取器的扫描仪51以及作为图像打印机的打印机52。图像处理装置1用于包括在作为图像形成装置的MFP 50中的信息处理器的图像处理器,并且将版面分析处理应用于扫描仪51扫描的图像。
在这种情况下,考虑下面的三种模式。
1.当在扫描仪51中扫描了图像时,执行处理直到图像类型识别单元23的图像类型识别处理,并且将数据记录在图像数据的报头中作为图像类型信息。
2.当在扫描仪51中扫描了图像时,不执行处理,但是在数据分配或数据存储的时候执行该处理直到区域提取单元25的区域提取处理。
3.当在扫描仪51中扫描了图像时,执行处理直到区域提取单元25的区域提取处理。
下面参考图13说明本发明的第二实施例。将相同的参考号码分配给与第一实施例中相同的那些部分,并且略去对这些部分的描述。
在第一实施例中,将本地系统(例如,单独的PC)作为图像处理装置1,但是在第三实施例中,形成服务器-客户端的服务器计算机用作图像处理装置1。
图13是根据第三实施例的服务器-客户端系统的示意图。如图13所示,以这样一种方式采用客户端-服务器系统,即,多个客户端计算机C通过网络N连接到服务器计算机S,并且图像从每个客户端计算机C发送到服务器计算机S(图像处理装置1),在服务器计算机S对图像进行版面分析处理。需要指出,网络N上提供了网络扫描仪NS。
在这种情况下,考虑下面的三种模式。
1.当使用网络扫描仪NS在服务器计算机S(图像处理装置1)扫描图像时,执行处理直到图像类型识别单元23的图像类型识别处理,并且将数据记录在图像数据的报头中作为图像类型信息。
2.当使用网络扫描仪NS在服务器计算机S(图像处理装置1)扫描图像时,不执行处理,但是在数据分配或数据存储的时候执行该处理直到区域提取单元25的区域提取处理。
3.当使用网络扫描仪NS在服务器计算机S(图像处理装置1)扫描图像时,执行处理直到区域提取单元25的区域提取处理。
如同以上所述,根据本发明的实施例,使用基于版面(文本和照片或者画面的大致空间排列和分布)计算的图像数据的图像特征量来对图像数据进行分类以识别图像数据的类型。基于该结果,选择与图像数据的类型相关联的区域提取方法用于版面分析。根据选择的区域提取方法将图像数据划分为区域。这允许通过根据版面轮廓表征图像类型的图像特征量的高速计算,还允许选择适合于图像数据的类型的用于版面分析的任何区域提取方法。从而,可以改进图像的区域提取的性能。
此外,可通过每个块获取诸如文本和照片或者画面的大致空间排列和分布的版面的轮廓。从而,可以以简单的方式计算图像数据的图像特征量。
此外,可以有效地提取图像的大致和精细特征,并且可以有效地计算代表图像数据中黑色像素和白色像素的局部排列的高表征性统计信息。此外,通过线形计算可以容易地进行根据文本和画面(非文本)的分布的图像数据的分类。
尽管已经参考特定实施例对本发明进行了描述以得到完整和清楚的揭示,不应该这样限制所附的权利要求,而是认为这些权利要求包含落在这里提出的基本教导的范围之内的、对于本领域技术人员可以想到的所有修改和替代结构。
Claims (18)
1.一种分析图像的版面的图像处理装置,该图像处理装置包括:
图像特征计算单元,用于基于图像的版面计算图像数据的图像特征量;
图像类型识别单元,用于使用图像特征量识别图像数据的图像类型;
存储单元,用于存储关于图像类型的信息,每一图像类型与区域提取方法相关联;
选择单元,参照存储单元中的信息,为版面分析选择与图像数据的图像类型相关联的区域提取方法;以及
区域提取单元,基于区域提取方法将图像数据划分为区域,并且基于区域提取方法提取各个划分后的区域内的图像数据,
其中,当图像类型识别单元将图像数据的图像类型识别为低版面密度时,选择单元选择从上向下类型的区域提取方法;
当图像类型识别单元将图像数据的图像类型识别为分散在页面上的很少文本时,选择单元选择从下向上类型的区域提取方法;并且
当图像类型识别单元将图像数据的图像类型识别为大部分是画面并且很少是文本时,选择单元选择从下向上类型的区域提取方法。
2.根据权利要求1所述的图像处理装置,其中,图像特征计算单元包括:
划分单元,用于将图像数据专有地划分为块;
块分类单元,用于对作为图像数据的部分的每个块进行分类;以及
计算单元,用于基于块分类单元获得的分类结果计算图像特征量。
3.根据权利要求2所述的图像处理装置,其中,块分类单元包括:
图像生成单元,用于从块生成具有不同分辨率的多个图像;
特征向量计算单元,用于从每个生成的图像计算特征向量;以及
分类单元,用于基于特征向量对每个块进行分类。
4.根据权利要求3所述的图像处理装置,其中,特征向量计算单元包括:
二进制化单元,用于对每个生成的图像进行二进制化以获取二进制图像;
像素特征计算单元,用于使用由像素以及该像素周围的像素形成的局部图案中对应像素的值,计算二进制图像中每个像素的特征;以及
相加单元,用于对整个生成的图像中的像素的特征进行相加。
5.根据权利要求3所述的图像处理装置,其中,特征向量计算单元包括:
像素特征计算单元,用于使用由像素以及该像素周围的像素形成的局部图案中的对应像素的值,计算每个生成的图像中每个像素的特征;以及
相加单元,用于对整个生成的图像中的像素的特征进行相加。
6.根据权利要求3所述的图像处理装置,其中
分类单元将特征向量分解为预先计算的文本像素的特征向量和非文本像素的特征向量的线性组合,以对每个块进行分类。
7.一种用于在纸张上打印图像的图像形成装置,该图像形成装置包括:
图像读取器,用于读取图像数据;
图像特征计算单元,用于基于图像的版面计算图像数据的图像特征量;
图像类型识别单元,用于使用图像特征量识别图像数据的图像类型;
存储单元,用于存储关于图像类型的信息,每一图像类型与区域提取方法相关联;
选择单元,参照存储单元中的信息,为版面分析选择与图像数据的图像类型相关联的区域提取方法;以及
区域提取单元,基于区域提取方法将图像数据划分为区域,并且基于区域提取方法提取各个划分后的区域内的图像数据,
其中,当图像类型识别单元将图像数据的图像类型识别为低版面密度时,选择单元选择从上向下类型的区域提取方法;
当图像类型识别单元将图像数据的图像类型识别为分散在页面上的很少文本时,选择单元选择从下向上类型的区域提取方法;并且
当图像类型识别单元将图像数据的图像类型识别为大部分是画面并且很少是文本时,选择单元选择从下向上类型的区域提取方法。
8.根据权利要求7所述的图像形成装置,其中,图像特征计算单元包括:
划分单元,用于将图像数据专有地划分为块;
块分类单元,用于对作为图像数据的部分的每个块进行分类;以及
计算单元,用于基于块分类单元获得的分类结果计算图像特征量。
9.根据权利要求8所述的图像形成装置,其中,块分类单元包括:
图像生成单元,用于从块生成具有不同分辨率的多个图像;
特征向量计算单元,用于从每个生成的图像计算特征向量;以及
分类单元,用于基于特征向量对每个块进行分类。
10.根据权利要求9所述的图像形成装置,其中,特征向量计算单元包括:
二进制化单元,用于对每个生成的图像进行二进制化以获取二进制图像;
像素特征计算单元,用于使用由像素以及该像素周围的像素形成的局部图案中对应像素的值,计算二进制图像中每个像素的特征;以及
相加单元,用于对整个生成的图像中的像素的特征进行相加。
11.根据权利要求9所述的图像形成装置,其中,特征向量计算单元包括:
像素特征计算单元,用于使用由像素以及该像素周围的像素形成的局部图案中的对应像素的值,计算每个生成的图像中每个像素的特征;以及
相加单元,用于对整个生成的图像中的像素的特征进行相加。
12.根据权利要求9所述的图像形成装置,其中
分类单元将特征向量分解为预先计算的文本像素的特征向量和非文本像素的特征向量的线性组合,以对每个块进行分类。
13.一种用于分析图像的版面的图像处理方法,包括:
基于图像的版面计算图像数据的图像特征量;
使用图像特征量识别图像数据的图像类型;
存储关于图像类型的信息,每一图像类型与区域提取方法相关联;
参照所述信息,为版面分析选择与图像数据的图像类型相关联的区域提取方法;
基于区域提取方法将图像数据划分为区域;以及
基于区域提取方法提取各个划分后的区域内的图像数据,
其中,当识别图像数据的图像类型为低版面密度时,选择从上向下类型的区域提取方法;
当识别图像数据的图像类型为分散在页面上的很少文本时,选择从下向上类型的区域提取方法;并且
当识别图像数据的图像类型为大部分是画面并且很少是文本时,选择从下向上类型的区域提取方法。
14.根据权利要求13所述的图像处理方法,其中计算图像特征量包括:
将图像数据专有地划分为块;
对作为图像数据的部分的每个块进行分类;以及
基于分类结果计算图像特征量。
15.根据权利要求14所述的图像处理方法,其中对块进行分类包括:
从块生成具有不同分辨率的多个图像;
从每个生成的图像计算特征向量;以及
基于特征向量对每个块进行分类。
16.根据权利要求15所述的图像处理方法,其中计算特征向量包括:
对每个生成的图像进行二进制化以获取二进制图像;
使用由像素以及该像素周围的像素形成的局部图案中的对应像素的值,计算二进制图像中每个像素的特征;以及
对整个生成的图像中的像素的特征进行相加。
17.根据权利要求15所述的图像处理方法,其中计算特征向量包括:
使用由像素以及该像素周围的像素形成的局部图案中的对应像素的值,计算每个生成的图像中每个像素的特征;以及
对整个生成的图像中的像素的特征进行相加。
18.根据权利要求15所述的图像处理方法,其中对每个块进行分类包括:
将特征向量分解为预先计算的文本像素的特征向量和非文本像素的特征向量的线性组合。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006010368A JP4768451B2 (ja) | 2006-01-18 | 2006-01-18 | 画像処理装置、画像形成装置、プログラムおよび画像処理方法 |
JP2006010368 | 2006-01-18 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101004792A CN101004792A (zh) | 2007-07-25 |
CN100559387C true CN100559387C (zh) | 2009-11-11 |
Family
ID=38263233
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNB200710001946XA Expired - Fee Related CN100559387C (zh) | 2006-01-18 | 2007-01-17 | 图像处理装置和方法,图像形成装置 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20070165950A1 (zh) |
JP (1) | JP4768451B2 (zh) |
CN (1) | CN100559387C (zh) |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5113653B2 (ja) * | 2007-09-19 | 2013-01-09 | 株式会社リコー | データ処理装置、プログラムおよびデータ処理方法 |
JP5085370B2 (ja) * | 2008-02-19 | 2012-11-28 | オリンパス株式会社 | 画像処理装置および画像処理プログラム |
JP5006263B2 (ja) * | 2008-06-03 | 2012-08-22 | 株式会社リコー | 画像処理装置、プログラムおよび画像処理方法 |
KR101214772B1 (ko) * | 2010-02-26 | 2012-12-21 | 삼성전자주식회사 | 문자의 방향성을 기반으로 한 문자 인식 장치 및 방법 |
US9070011B2 (en) * | 2010-06-18 | 2015-06-30 | Csr Imaging Us, Lp | Automated segmentation tuner |
US8989499B2 (en) | 2010-10-20 | 2015-03-24 | Comcast Cable Communications, Llc | Detection of transitions between text and non-text frames in a video stream |
JP5401695B2 (ja) * | 2011-05-23 | 2014-01-29 | 株式会社モルフォ | 画像識別装置、画像識別方法、画像識別プログラム及び記録媒体 |
JP5668932B2 (ja) * | 2011-05-23 | 2015-02-12 | 株式会社モルフォ | 画像識別装置、画像識別方法、画像識別プログラム及び記録媒体 |
CN102509284B (zh) * | 2011-09-30 | 2013-12-25 | 北京航空航天大学 | 一种肖像光照艺术性的自动评测方法 |
US9307107B2 (en) * | 2013-06-03 | 2016-04-05 | Kodak Alaris Inc. | Classification of scanned hardcopy media |
US10372981B1 (en) | 2015-09-23 | 2019-08-06 | Evernote Corporation | Fast identification of text intensive pages from photographs |
CN105512100B (zh) * | 2015-12-01 | 2018-08-07 | 北京大学 | 一种版面分析方法及装置 |
CN107688788B (zh) * | 2017-08-31 | 2021-01-08 | 平安科技(深圳)有限公司 | 文档图表抽取方法、电子设备及计算机可读存储介质 |
KR102103518B1 (ko) * | 2018-09-18 | 2020-04-22 | 이승일 | 인공지능을 이용한 텍스트 및 그림 데이터를 동영상 데이터로 생성하는 시스템 |
KR102509343B1 (ko) * | 2020-11-17 | 2023-03-13 | 아주대학교산학협력단 | 이미지의 레이아웃 분석 방법 및 시스템 |
Family Cites Families (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0461817A3 (en) * | 1990-06-15 | 1993-11-18 | American Telephone & Telegraph | Image segmenting apparatus and methods |
JP3091278B2 (ja) * | 1991-09-30 | 2000-09-25 | 株式会社リコー | 文書認識方式 |
JP2550867B2 (ja) * | 1993-06-04 | 1996-11-06 | 日本電気株式会社 | 図形混在文書画像の構造解析方法 |
JPH08194780A (ja) * | 1994-11-18 | 1996-07-30 | Ricoh Co Ltd | 特徴抽出方法 |
JP3776500B2 (ja) * | 1996-03-26 | 2006-05-17 | オリンパス株式会社 | 多重化光学系及びそれを用いた特徴ベクトル変換装置、特徴ベクトル検出伝送装置、及び、それらを用いた認識分類装置 |
US6539115B2 (en) * | 1997-02-12 | 2003-03-25 | Fujitsu Limited | Pattern recognition device for performing classification using a candidate table and method thereof |
JP3472094B2 (ja) * | 1997-08-21 | 2003-12-02 | シャープ株式会社 | 領域判定装置 |
US6628819B1 (en) * | 1998-10-09 | 2003-09-30 | Ricoh Company, Ltd. | Estimation of 3-dimensional shape from image sequence |
US7426054B1 (en) * | 1999-05-13 | 2008-09-16 | Canon Kabushiki Kaisha | Image processing apparatus, image reproduction apparatus, system, method and storage medium for image processing and image reproduction |
JP3747737B2 (ja) * | 2000-05-10 | 2006-02-22 | 日本電気株式会社 | 広域精細画像生成方法及びシステム並びにコンピュータ可読記録媒体 |
US6735335B1 (en) * | 2000-05-30 | 2004-05-11 | Microsoft Corporation | Method and apparatus for discriminating between documents in batch scanned document files |
JP3615162B2 (ja) * | 2001-07-10 | 2005-01-26 | 日本電気株式会社 | 画像符号化方法及び画像符号化装置 |
JP2004171375A (ja) * | 2002-11-21 | 2004-06-17 | Canon Inc | 画像処理方法 |
JP4259949B2 (ja) * | 2003-08-08 | 2009-04-30 | 株式会社リコー | 画像作成装置、画像作成プログラムおよび記録媒体 |
JP4441300B2 (ja) * | 2004-03-25 | 2010-03-31 | 株式会社リコー | 画像処理装置、画像処理方法、画像処理プログラムおよびこのプログラムを記憶した記録媒体 |
JP4165435B2 (ja) * | 2004-04-13 | 2008-10-15 | 富士ゼロックス株式会社 | 画像形成装置およびプログラム |
JP2006085665A (ja) * | 2004-08-18 | 2006-03-30 | Ricoh Co Ltd | 画像処理装置、画像処理プログラム、記憶媒体、画像処理方法および画像形成装置 |
JP2006074331A (ja) * | 2004-09-01 | 2006-03-16 | Ricoh Co Ltd | 画像処理装置、画像処理プログラム、記憶媒体、画像処理装置の画像処理制御方法および画像形成装置 |
-
2006
- 2006-01-18 JP JP2006010368A patent/JP4768451B2/ja not_active Expired - Fee Related
- 2006-12-15 US US11/639,215 patent/US20070165950A1/en not_active Abandoned
-
2007
- 2007-01-17 CN CNB200710001946XA patent/CN100559387C/zh not_active Expired - Fee Related
Non-Patent Citations (4)
Title |
---|
基于直线拟合的文本倾斜检测算法. 张晓芸,朱庆生,曾令秋.计算机应用研究,第6期. 2005 |
基于直线拟合的文本倾斜检测算法. 张晓芸,朱庆生,曾令秋.计算机应用研究,第6期. 2005 * |
页面倾斜检测与版面分析算法的研究. 魏之来.南京理工大学硕士学位论文. 2004 |
页面倾斜检测与版面分析算法的研究. 魏之来.南京理工大学硕士学位论文. 2004 * |
Also Published As
Publication number | Publication date |
---|---|
JP4768451B2 (ja) | 2011-09-07 |
US20070165950A1 (en) | 2007-07-19 |
CN101004792A (zh) | 2007-07-25 |
JP2007193528A (ja) | 2007-08-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN100559387C (zh) | 图像处理装置和方法,图像形成装置 | |
DE69724755T2 (de) | Auffinden von Titeln und Photos in abgetasteten Dokumentbildern | |
JP5149259B2 (ja) | ランレングスヒストグラムを用いて文書の表現を生成する方法及び装置 | |
CN101231698B (zh) | 分割图像和/或接收表示分割的图像的信号的设备和方法 | |
US6574375B1 (en) | Method for detecting inverted text images on a digital scanning device | |
EP1999688B1 (en) | Converting digital images containing text to token-based files for rendering | |
US8442319B2 (en) | System and method for classifying connected groups of foreground pixels in scanned document images according to the type of marking | |
US8005300B2 (en) | Image search system, image search method, and storage medium | |
US8041113B2 (en) | Image processing device, image processing method, and computer program product | |
Shafait et al. | Performance comparison of six algorithms for page segmentation | |
US6351559B1 (en) | User-enclosed region extraction from scanned document images | |
Lin et al. | Reconstruction of shredded document based on image feature matching | |
US9710524B2 (en) | Image processing apparatus, image processing method, and computer-readable storage medium | |
US20090257653A1 (en) | Image processor and computer readable medium | |
Baird | Difficult and urgent open problems in document image analysis for libraries | |
Meunier | Optimized XY-cut for determining a page reading order | |
EP1017011A2 (en) | Block selection of table features | |
CN1684493B (zh) | 图像形成装置及图像形成方法 | |
WO2000062243A1 (fr) | Procede et dispositif d'extraction de chaines de caracteres utilisant un composant de base d'une image de document | |
Gatos et al. | First international newspaper segmentation contest | |
Padma et al. | I DENTIFICATION OF T ELUGU, D EVANAGARI AND E NGLISH S CRIPTS U SING D ISCRIMINATING | |
JPH11272798A (ja) | ボ―ルド体文字を区別する方法及び装置 | |
CN115223182A (zh) | 一种文档版面识别方法及相关装置 | |
Abass et al. | Classification and Retrieving Printed Arabic Document Images Based on Bagged Decision Tree Classifier | |
Cutter et al. | Font group identification using reconstructed fonts |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20091111 Termination date: 20190117 |
|
CF01 | Termination of patent right due to non-payment of annual fee |