CN103324927A

CN103324927A - 图像处理装置以及文字识别方法

Info

Publication number: CN103324927A
Application number: CN2013100872072A
Authority: CN
Inventors: 岛崎克仁
Original assignee: PFU Ltd
Current assignee: PFU Ltd
Priority date: 2012-03-19
Filing date: 2013-03-18
Publication date: 2013-09-25
Anticipated expiration: 2033-03-18
Also published as: JP2013196369A; JP5826081B2; CN103324927B; US20130243321A1; US8861854B2

Abstract

本发明提供一种在确保文字识别的精度的同时，可以高速地进行文字识别的图像处理装置、文字识别方法、计算机程序。信息处理装置（20）具有：直方图生成部（203），其基于输入图像中的各像素的像素值来生成直方图；成分判定部（204），其基于直方图对输入图像中是否包含有文字成分、是否包含有非文字成分进行判定；二值化部（205），其在输入图像中包含有文字成分和非文字成分两者的情况下，通过基于各像素的边缘强度对输入图像进行二值化的第1处理来生成二值图像，在输入图像中包含有文字成分且不包含非文字成分的情况下，通过基于各像素的亮度值对输入图像进行二值化的第2处理来生成二值图像；文字识别部（206），其对二值图像进行文字识别。

Description

图像处理装置以及文字识别方法

技术领域

本发明涉及一种图像处理装置以及文字识别方法，特别是涉及一种对多种原稿进行文字识别的图像处理装置以及文字识别方法。

背景技术

作为对由扫描仪装置等读取原稿而获取的图像数据内的文字进行识别的技术，存在一种OCR（Optical Character Recognition；光学文字识别）技术。在OCR技术中，现在寻求不仅是对只记载有文字的原稿，对文字、图片、照片等混在一起的原稿也能够识别文字。因此，为了能从各种原稿高精度地进行文字识别，OCR处理正变得复杂，处理需要较长时间。

专利文献1中公开了一种包括CPU、串行运算处理部、并行运算处理部的信息处理装置。该信息处理装置中，对由CPU、串行运算处理部以及并行运算处理部中哪一个来执行包含于图像处理的各种运算处理能实现高速运行进行事先验证，并预先存储设定了由哪一个来执行各种运算处理的表格。并且，CPU针对已命令执行的各种运算处理，参照已存储的表格，确定哪一个为执行主体。

专利文献2中公开了进行文字识别处理和压缩处理的图像处理装置。该图像处理装置针对文章、图形、图片混在一起的原稿，识别图像数据的属性（标题、文章、图形以及图片）并分割区域。并且，使用对包含标题、文章等的文字的区域进行简单二值化后得到的二值数据来进行文字识别处理。另外，专利文献2中记载了对针对包含标题、文章等的文字的区域进行简单二值化后得到的二值数据进行压缩处理，对针对图片、照片等的中间色调区域通过误差扩散法等进行二值化后得到的中间色调二值数据进行压缩处理。

【现有技术文献】

【专利文献】

【专利文献1】特开2011-191903号公报

【专利文献2】特开平8-315159号公报

发明内容

【发明要解决的技术问题】

由于专利文献1中公开的信息处理装置对各被包含于图像处理的运算处理，选择能够最快执行该处理的处理部，因此能够高速地执行各运算处理。然而，由该信息处理装置进行文字识别处理的情况下，由于对所有原稿一律执行预先设定的运算处理，即使是对只记载有文字的原稿也需要与有文字、图片、照片等混在一起的原稿几乎相同的处理时间。

由于专利文献2中公开的图像处理装置不对图片、照片等的区域进行文字识别处理，因而能够高速地执行文字识别处理。然而，该图像处理装置在图片、照片等的区域包含有文字的情况下，无法识别该文字。

本发明的目的在于，提供一种在确保文字识别的精度的同时可以高速地进行文字识别的图像处理装置以及文字识别方法。

【解决问题的技术手段】

本发明的一方面所涉及的一种图像处理装置包括：直方图生成部，其基于输入图像中的各像素的像素值来生成直方图；成分判定部，其基于直方图对输入图像中是否包含有文字成分、是否包含有除文字成分和背景成分之外的非文字成分进行判定；二值化部，其在输入图像中包含有文字成分和非文字成分两者的情况下，通过基于各像素的边缘强度对该输入图像进行二值化的第1处理来生成二值图像，在输入图像中包含有文字成分且不包含非文字成分的情况下，通过基于各像素的亮度值对该输入图像进行二值化的第2处理来生成二值图像；文字识别部，其对二值图像进行文字识别。

又，本发明的另一方面所涉及的一种文字识别方法包含：基于输入图像中的各像素的像素值来生成直方图的步骤；基于直方图对输入图像中是否包含有文字成分、是否包含有除文字成分和背景成分之外的非文字成分进行判定的步骤；在输入图像中包含有文字成分和非文字成分两者的情况下，通过基于各像素的边缘强度对该输入图像进行二值化的第1处理来生成二值图像，在输入图像中包含有文字成分且不包含非文字成分的情况下，通过基于各像素的亮度值对该输入图像进行二值化的第2处理来生成二值图像的步骤；对二值图像进行文字识别的步骤。

【发明的效果】

根据本发明的一个实施方式，能够提供一种在确保文字识别的精度的同时可以高速地进行文字识别的图像处理装置以及文字识别方法。

附图说明

图1是实施方式所涉及的图像处理系统的概略构成图。

图2是图像处理部的概略构成图。

图3是示出图像读取处理的动作的示例的流程图。

图4是示出文字识别处理的动作的示例的流程图。

图5是用于说明区域分割处理的示意图。

图6是示出区域分割处理的动作的示例的流程图。

图7（a）～（c）是用于说明成分判定处理的示意图。

图8是示出成分判定处理的动作的示例的流程图。

图9是示出二值化处理的动作的示例的流程图。

图10是示出图像处理部的其它示例的概略构成图。

图11是示出文字识别处理的动作的其它示例的流程图。

图12是示出图像处理部的其它示例的概略构成图。

图13是其它实施方式所涉及的图像处理系统的概略构成图。

【符号的说明】

1、2图像处理系统

10、30图像读取装置

11、31图像输入部

12、32第1图像存储器部

13、33第1接口部

14、34第1存储部

15、35第1中央处理部

20、40信息处理装置

21、41第2接口部

22、42第2图像存储器部

23、43显示部

24、44输入部

25、45第2存储部

26、46第2中央处理部

27、28、29、36图像处理部

201图像转换部

202区域分割部

203直方图生成部

204成分判定部

205二值化部

206文字识别部

207布局分析部

具体实施方式

以下，针对本发明的一方面所涉及的图像处理装置以及文字识别方法参照图进行说明。但本发明的技术的范围并不限定于这些实施方式，值得注意的是其涉及到专利权利要求书所记载的发明及其等同发明。

图1是示出实施方式所涉及的图像处理系统的概略构成的图。如图1所示，图像处理系统1具有图像读取装置10和信息处理装置20。图像读取装置10可以是例如图像扫描仪、数码相机等，信息处理装置20可以是例如与图像读取装置10相连接使用的个人电脑等。

图像读取装置10具有图像输入部11、第1图像存储器部12、第1接口部13、第1存储部14、第1中央处理部15。以下，针对图像读取装置10的各部进行详细的说明。

图像输入部11具有对作为摄像对象物的原稿等进行摄像的摄像传感器。该摄像传感器包括一维或二维排列的CCD（Charge Coupled Device：电荷耦合器件）、CMOS（Complementary Metal Oxide Semiconductor：互补金属氧化物半导体）等的摄像元件和在摄像元件上对摄像对象物的像进行成像的光学系统，各摄像元件输出与RGB各个颜色相应的模拟值。然后，图像输入部11将摄像传感器输出的各模拟值转换成数字值后生成像素数据，并生成由已生成的各像素数据构成的图像数据（以下称为输入图像）。该输入图像中的各像素数据为，例如由RGB各个颜色分别用8bit来表示共计24bit的RGB值构成的彩色图像数据。

第1图像存储器部12具有不挥发性半导体存储器、挥发性半导体存储器、磁盘等的存储装置。第1图像存储器部12与图像输入部11相连接，并保存由图像输入部11生成的输入图像。

第1接口部13具有以USB（Universal Serial Bus：串行总线）等的串行总线为基准的接口电路，与信息处理装置20电连接并收发图像数据以及各种信息。又，也可将闪存等连接到第1接口部13以暂时性存储被保存到第1图像存储器部12的图像数据，并复制到信息处理装置20。又，也可以介由互联网、电话线路网（包含移动终端线路网、一般电话线路网）、企业内部网等的有线或无线网络来连接第1接口部13与信息处理装置20。在该情况下，第1接口部13还包括连接的网络的通信接口电路。

第1存储部14具有：RAM（Random Access Memory：随机存取存储器）、ROM（ReadOnly Memory：只读存储器）等存储装置；硬盘等固定磁盘装置；或软盘、光盘等可移动的存储装置等。又，第1存储部14中储存有用于图像读取装置10的各种处理的计算机程序、数据库、表格等。

第1中央处理部15与图像输入部11、第1图像存储器部12、第1接口部13以及第1存储部14连接并控制这些各部。第1中央处理部15进行图像输入部11的图像生成控制、第1图像存储器部12的控制、介由第1接口部13与信息处理装置20之间的收发数据控制、第1存储部14的控制等。

信息处理装置20具有第2接口部21、第2图像存储器部22、显示部23、输入部24、第2存储部25、第2中央处理部26、图像处理部27。以下，针对信息处理装置20的各部进行详细说明。

第2接口部21具有与图像读取装置10的第1接口部13同样的接口电路，连接信息处理装置20与图像读取装置10。

第2图像存储器部22具有与图像读取装置10的第1图像存储器部12一样的存储装置。第2图像存储器部22介由第2接口部21保存从图像读取装置10接收到的输入图像，同时与图像处理部27相连接，保存图像处理部27对输入图像完成图像处理后的各种的处理图像。

显示部23具有由液晶、有机EL等构成的显示器和输出图像数据或各种的信息到显示器的接口电路，与第2图像存储器部22和第2中央处理部26相连接，将第2图像存储器部22中保存的图像数据或从第2中央处理部26输出的信息显示到显示器上。

输入部24具有键盘、鼠标等输入装置和获取来自输入装置的信号的接口电路，将与使用者的操作相应的信号输出到第2中央处理部26。

第2存储部25具有与图像读取装置10的第1存储部14同样的存储装置、固定磁盘装置、可移动的存储装置等。第2存储部25中储存有用于信息处理装置20的各种处理的计算机程序、数据库、表格等。

第2中央处理部26与第2接口部21、第2图像存储器部22、显示部23、输入部24、第2存储部25以及图像处理部27连接，并控制这些各部。第2中央处理部26进行介由第2接口部21的与图像读取装置10之间的收发数据控制、第2图像存储器部22的控制、显示部23的显示控制、输入部24的输入控制、第2存储部25的控制、图像处理部27的图像处理的控制等。

图像处理部27与第2图像存储器部22相连接，进行文字识别处理。该图像处理部27与第2中央处理部26相连接，根据来自第2中央处理部26的控制，基于预先被存储在第2存储部25中的程序来进行动作。另外，图像处理部27也可以由独立的集成电路、微处理器、固件等构成。

图2是示出图像处理部27的概略构成的图。如图2所示，图像处理部27具有图像转换部201、区域分割部202、直方图生成部203、成分判定部204、二值化部205以及文字识别部206。这些各部是通过在处理器上进行动作的软件来安装的功能模块。另外，这些各部也可以由各自独立的集成电路、微处理器、固件等构成。

图3是示出图像读取装置10的图像读取处理的动作的示例的流程图。以下，参照图3所示的流程图对图像读取处理的动作的示例进行说明。另外，以下说明的动作的流程，基于预先被存储在第1存储部14中的程序，主要通过第1中央处理部15与图像读取装置10的各协作来执行。

首先，图像输入部11生成对作为摄像对象物的原稿进行拍摄得到的输入图像，并保存到第1图像存储器部12中（步骤S301）。

然后，第1中央处理部15介由第1接口部13，将保存在第1图像存储器部12中的输入图像发送到信息处理装置20（步骤S302），结束一系列步骤。

图4示出信息处理装置20的文字识别处理的动作的示例的流程图。以下，参照图4所示的流程图对文字识别处理的动作的示例进行说明。另外，以下说明的动作的流程是基于预先被存储在第2存储部25中的程序，主要通过第2中央处理部26与信息处理装置20的各要素协同执行的。

首先，第2中央处理部26介由第2接口部21从图像读取装置10获取输入图像后，保存到第2图像存储器部22（步骤S401）。

然后，图像转换部201读出保存在第2图像存储器部22中的输入图像，生成将输入图像的各像素的RGB值转换成亮度值后的图像（以下，称为“亮度图像”），并保存到第2图像存储器部22（步骤S402）。另外，亮度值可以通过例如以下的式子进行计算。

亮度值=0.30×R值+0.59×G值+0.11×B值（1）

然后，区域分割部202实施将输入图像分割成各个以具有规定范围内的亮度值的像素相连通的区域为边界的图像区域的区域分割处理（步骤S403）。

图5是用于对区域分割处理进行说明的示意图。图5所示的图像500是输入图像的示例。输入图像500由以下区域组成：标题区域501，文章区域502、503，文章和图片混合区域504，图片区域505。区域分割部202抽出具有规定范围（例如10）内的亮度值的像素相连通的空白区域511～514，以已抽出的空白区域511～514为边界将输入图像500分割成各区域501～505。

图6是示出区域分割处理的动作的示例的流程图。以下，参照图6所示的流程图对区域分割处理的动作的示例进行说明。

区域分割部202从第2图像存储器部22读出亮度图像，针对每条亮度图像的水平方向的线（以下，称为“水平线”）分别生成各像素的亮度值的直方图（以下，称为“亮度直方图”）（步骤S601）。

然后，区域分割部202基于亮度直方图，抽出各像素的亮度值在规定范围内的水平线，设为水平空白线（步骤S602）。另外，在亮度值在规定范围内的像素的数量为该水平线内的全部像素数量的规定比率（例如95%）以上的情况下，也可以将该水平线设为水平空白线。

然后，区域分割部202将各像素的亮度值的分布范围大致相同，且相邻的各水平空白线结合形成水平空白区域（步骤S603）。

然后，区域分割部202对是否存在不位于亮度图像中的上端以及下端的任一端、且在规定宽度（例如2条线）以上的（即结合了规定数量以上的水平空白线）水平空白区域进行判定（步骤S604）。

在存在这样的水平空白区域的情况下，区域分割部202以与该水平空白区域相应的输入图像中的区域为边界，在水平方向上将输入图像分割成多个图像区域（步骤S605）。在图5所示的示例中，通过该分割处理，以空白区域511为边界，将输入图像500分割成标题区域501和空白区域511下侧的图像区域。另一方面，在不存在这样的水平空白区域的情况下，区域分割部202不进行特别处理，处理前进到步骤S606。

然后，区域分割部202对与分割后的各图像区域相应的亮度图像中的各区域（在步骤S605中不分割亮度图像的情况下为亮度图像），针对每条垂直方向的线（以下，称为“垂直线”）分别生成亮度直方图（步骤S606）。

然后，区域分割部202基于亮度直方图，抽出各像素的亮度值在规定范围内的垂直线，设为垂直空白线（步骤S607）。另外，与步骤S602的处理一样，也可以在亮度值在规定范围内的像素的数量在该垂直线内的全部像素数的规定比率以上的情况下，将该垂直线设为垂直空白线。

然后，区域分割部202将各像素的亮度值的分布范围大致相同且相邻的各垂直空白线结合形成垂直空白区域（步骤S608）。

然后，区域分割部202对是否存在不位于各图像区域内的左端以及右端且在规定宽度以上的（即，结合了规定数量以上的垂直空白线）垂直空白区域进行判定（步骤S609）。

在存在这样的垂直空白区域的情况下，区域分割部202以与该垂直空白区域相应的输入图像中的区域为边界，在垂直方向上进一步将各图像区域分割成多个图像区域（步骤S610）。在图5所示的示例中，通过该分割处理，不分割标题区域501地以空白区域512为边界将空白区域511下侧的图像区域分割成空白区域512左侧的图像区域和右侧的图像区域。另一方面，在不存在这样的空白区域的情况下，区域分割部202不进行特别处理，处理前进到步骤S611。

然后，区域分割部202对在步骤S610中是否已对区域进行分割进行判定（步骤S611）。在步骤S610中已对区域进行分割的情况下，区域分割部202对分割后的图像区域，再次重复步骤S601～S610的处理。另一方面，在步骤S610中未对区域进行分割的情况下，结束一系列步骤。

又，在第二次之后的步骤S601～S610的处理中，区域分割部202在步骤S605的处理之后对在步骤S605中是否已对区域进行分割进行判定，在未对区域进行分割的情况下结束一系列步骤。

在图5所示的示例中，通过第二次的水平方向的分割处理，空白区域512左侧的图像区域以空白区域513为边界，被分割成文章区域502和文章区域503，空白区域512右侧的图像区域以空白区域514为边界，被分割成混合区域504和图片区域505。并且，在第二次的垂直方向的分割处理中不抽出空白区域，结束区域分割处理。

这样，区域分割部202通过使用各条水平线或垂直线的亮度直方图，能够高速地分割输入图像中的区域。

另外，区域分割部202也可以对亮度图像生成在水平方向以及垂直方向上已间隔剔除像素的间隔剔除图像，使用已生成的间隔剔除图像来实施区域分割处理。由此，区域分割部202可以更加高速地实施区域分割处理。

又，区域分割部202也可以生成使用阈值T1对亮度图像的各像素进行二值化后得到的二值图像，采用已生成的二值图像来实施区域分割处理。该阈值T1可以设定为例如亮度图像中的全部像素的亮度值的平均值。在该情况下，区域分割部202按将亮度值在阈值T1以上的像素（接近于白色的像素）设为0，将亮度值不足阈值T1的像素（接近于黑色的像素）设为1的方式进行二值化。然后，针对二值图像的各条线计算二值的总和，将总和在规定值（例如“5”）以下的线设为空白线。由此，区域分割部202能够更加高速地实施区域分割处理。

回到图4，直方图生成部203针对由区域分割部202分割得到的每个图像区域，分别生成各像素的亮度值的直方图，并存储到第2图像存储器部22中（步骤S404）。

然后，成分判定部204基于由直方图生成部203生成的直方图，实施对各图像区域是否包含有文字成分、是否包含有除文字成分和背景成分之外的非文字成分进行判定的成分判定处理（步骤S405）。

图7（a）～（c）是用于对成分判定处理进行说明的示意图。图7（a）所示的曲线图700示出包含有文字成分和非文字成分两者的图像区域的亮度值的直方图的示例，图7（b）所示的曲线图710示出包含有文字成分但不包含非文字成分的图像区域的亮度值的直方图的示例，图7（c）所示的曲线图720示出包含有非文字成分但不包含文字成分的图像区域的亮度值的直方图的示例。曲线图700、710、720的横轴表示亮度值，纵轴表示频度。

一般的原稿中，文字的明亮程度和背景的明亮程度分别均匀，各自的明亮程度有较大差异以使使用者能够明确地区别文字和背景。另一方面，图片、照片等的明亮程度不均匀。因此，亮度值的直方图中，文字成分和背景成分的分布宽度有变窄的倾向，非文字成分的分布宽度有变宽倾向。又，在一般的原稿上文字与图片、照片等重叠的情况下，为了让使用者能够区别文字与图片、照片等，各自的明亮程度不同。因此，如图7（a）所示，在包含有文字成分和非文字成分两者的图像区域的亮度值的直方图中，非文字成分的较宽范围的分布701和文字成分的较窄范围的分布702两者都存在的可能性高。又，如图7（b）所示，在包含有文字成分但不包含非文字成分的图像区域的亮度值的直方图中，存在背景成分的较窄范围的分布711与文字成分的较窄范围的分布712的可能性高。又，如图7（c）所示，在包含有非文字成分但不包含文字成分的图像区域的亮度值的直方图中，只存在非文字成分的较宽范围的分布721的可能性高。因此，成分判定部204基于这些特征，对各图像区域内是否分别包含有文字成分和非文字成分进行判定。

图8是示出成分判定处理的动作的示例的流程图。以下，参照图8所示的流程图对成分判定处理的动作的示例进行说明。

成分判定部204从第2图像存储器部22读出处理对象的图像区域的亮度值的直方图（步骤S801）。

然后，成分判定部204在已读出的直方图中，从亮度值低的一侧开始依次对是否存在频度在该图像区域的全部像素数的规定比例（例如1%）以上的亮度值进行判定（步骤S802）。

成分判定部204在不存在这样的亮度值的情况下，使处理前进到步骤S806，在存在这样的亮度值的情况下，对这样的亮度值连续地存在的数量是否在规定数量（例如20）以上进行判定（步骤S803）。

成分判定部204在该连续地存在的数量在规定数量以上的情况下，将该连续的亮度值的范围作为第1范围抽出（步骤S804），在不足规定数量的情况下，将该连续的亮度值的范围作为第2范围抽出（步骤S805）。

然后，成分判定部204对是否已结束针对已读出的直方图的所有亮度值的处理进行判定（步骤S806）。在针对所有亮度值的处理没有结束的情况下，返回到步骤S802，对还未处理的亮度值重复步骤S802～S805的处理。

在针对所有亮度值的处理已结束的情况下，成分判定部204对该直方图中是否存在第1范围和第2范围两者进行判定（步骤S807）。在直方图中存在第1范围和第2范围两者的情况下，成分判定部204将该图像区域判定为包含有文字成分和非文字成分两者的第1属性区域（步骤S808）。另外，在存在第1范围和第2范围两者的情况下，由于即使其中一方或两者存在两个以上，该图像区域内包含有文字成分和非文字成分两者的可能性高，因而成分判定部204将该图像区域判定为第1属性区域。

另一方面，在直方图中不是第1范围和第2范围两者都存在的情况下，成分判定部204对该直方图中第2范围是否存在两个以上进行判定（步骤S809）。在直方图中第2范围存在两个以上的情况下，成分判定部204将该图像区域判定为只包含有文字成分和背景成分的第2属性区域（步骤S810）。另外，在第2范围存在三个以上的情况下，由于该第2范围的其中一个为背景成分，其余的分别为亮度不同的文字成分的可能性高，因而成分判定部204将该图像区域判定为第2属性区域。另外，在该情况下，也可以将该第2范围的其中一个判断为非文字成分，将该图像区域判定为第1属性区域。

另一方面，在直方图中第2范围不存在两个以上的情况下，成分判定部204将该图像区域判定为不包含文字成分的第3属性区域（步骤S811）。另外，虽然在直方图中只包含有第1范围的情况下，该图像区域中只包含有非文字成分的可能性高，且在直方图中只包含有一个第2范围的情况下，该图像区域中只包含有背景成分的可能性高，但不论在何种情况下该图像区域中都不包含文字成分。

在判定图像区域为何种属性区域后，成分判定部204对是否已结束针对所有图像区域的直方图的处理进行判定（步骤S812）。在针对所有图像区域的直方图中的处理没有结束的情况下，成分判定部204使处理返回到步骤S801，对还未处理的图像区域的直方图中重复步骤S801～S811的处理。另一方面，在对所有图像区域的直方图中的处理已结束的情况下，成分判定部204完成一系列步骤。

这样，成分判定部204通过使用各图像区域的直方图，能够对各图像区域内是否分别包含有文字成分和非文字成分进行高速地判定。

回到图4，二值化部205依照由成分判定部204所判定的结果，对各图像区域实施二值化处理（步骤S406）。

图9是示出二值化处理的动作的示例的流程图。以下，参照图9所示的流程图对二值化处理的动作的示例进行说明。

二值化部205对输入图像中是否存在第1属性区域进行判定（步骤S901）。在输入图像中存在第1属性区域的情况下，即在输入图像中包含有文字成分和非文字成分两者且各图像区域中至少有一个包含有文字成分和非文字成分两者的情况下，二值化部205通过第1处理对输入图像进行二值化（步骤S902）。

各图像区域是以空白区域为边界而分割成的区域，第1属性区域内包含有文字成分和非文字成分两者。因此，在第1属性区域内文字成分和非文字成分相连通的可能性高，文字与图片、照片等重叠的可能性高。因而，在该情况下，为了能从各种亮度组成的非文字成分中适当地分离出文字成分，需要进行二值化。

因此，二值化部205在第1处理中基于各像素的边缘强度对输入图像进行二值化。例如，二值化部205对亮度图像的各像素，应用Prewitt过滤器、Sobel过滤器等的边缘检测过滤器生成将其输出值的绝对值作为像素值的边缘图像。然后，生成根据已生成的边缘图像的各像素的像素值是否在预先设定的阈值T2以上来对各像素进行二值化后得到的二值图像。该阈值T2例如可以根据人能通过目视判别图像上的亮度的差别的亮度值的差（例如20）来设定。

另一方面，在输入图像中不存在第1属性区域的情况下，二值化部205对输入图像中是否只存在第2属性区域进行判定（步骤S903）。在输入图像中只存在第2属性区域的情况下，即在输入图像中包含文字成分且不包含非文字成分的情况下，二值化部205通过第2处理对输入图像进行二值化（步骤S904）。

第2属性区域内只包含有文字成分和背景成分，不包含非文字成分。即输入图像中只包含有文字成分和背景成分，因此能够不基于各像素的边缘强度进行二值化地分离文字成分和背景成分的可能性高。

因此，二值化部205通过第2处理基于各像素的亮度值对输入图像进行二值化。在该情况下，二值化部205根据亮度图像的各像素的亮度值是否在阈值T3以上生成对各像素进行二值化后的二值图像。该阈值T3可以设定为例如亮度图像中的全部像素的亮度值的平均值。第2处理中，由于不需要求出各像素的边缘强度，因而能够比第1处理更加高速地实施二值化处理。

另一方面，在输入图像中存在除第2属性区域之外的图像区域的情况下，二值化部205对输入图像中第2属性区域和第3属性区域两者是否存在进行判定（步骤S905）。在输入图像中存在第2属性区域和第3属性区域两者的情况下，即虽然在输入图像中包含有文字成分和非文字成分两者，但各图像区域的任一个都不包含文字成分和非文字成分两者的情况下，二值化部205只对输入图像中的第2属性区域基于各像素的亮度值进行二值化（步骤S906）。

在输入图像中存在第2属性区域和第3属性区域两者的情况下，由于虽然输入图像中包含文字成分和非文字成分两者，但各图像区域的任一个都不包含文字成分和非文字成分两者，因而文字成分和非文字成分不连通，文字不与图片、照片等重叠的可能性高。因此，二值化部205在输入图像中只对第2属性区域基于各像素的亮度值进行二值化。

另一方面，由于在输入图像中不存在第2属性区域和第3属性区域两者的情况下，认为输入图像中不包含文字成分，因而不生成二值图像地完成一系列步骤。此外，在步骤S902、S904、S906中生成二值图像后，二值化部205完成一系列步骤。

另外，在第1处理中对输入图像基于各像素的边缘强度进行二值化的方法，并不限定于基于边缘图像对各像素进行二值化。例如，也可以通过第1处理将亮度图像分割成足够小的区域（例如3像素×3像素的区域），将各区域内的各像素的亮度值的平均值作为阈值来对该区域内的各像素进行二值化。在该情况下，能够基于各区域内的各像素的亮度值的差对输入图像进行二值化，即使文字成分和非文字成分相邻也能适当地分离各成分。因此，作为第1处理，二值化部205针对每个规定区域分别设定二值化的阈值来对各像素的亮度值进行二值化，另一方面，作为第2处理，二值化部205为输入图像中的所有像素设定共通的二值化的阈值来对各像素的亮度值进行二值化。在该情况下，由于第2处理中不需要针对每个规定区域分别求出二值化的阈值，因而能够比第1处理更加高速地实施二值化处理。

或者，二值化部205也可以在第1处理中基于输入图像中的各像素中的至少颜色分量来计算边缘强度。例如，二值化部205通过以下的（2）式，由输入图像的各像素的RGB值来计算反映输入图像中的各像素的明亮程度的明亮度，生成将计算出的明亮度作为像素值的明亮度图像。并且，对明亮度图像生成边缘图像，并根据该边缘图像的各像素的像素值是否在规定的阈值以上生成二值图像。

明亮度=max（R值，G值，B值）（2）

或者，二值化部205通过以下的（3）式，由输入图像的各像素的RGB值来计算反映输入图像中的各像素的色彩鲜艳程度的色度，生成将计算出的色度作为像素值的色度图像。并且，针对色度图像生成边缘图像，根据该边缘图像的各像素的像素值是否在规定的阈值以上来生成二值图像。

色度=（max（R值，G值，B值）-min（R值，G值，B值））/max（R值，G值，B值）（3）

或者，二值化部205针对以将输入图像中的各像素的亮度值、明亮度和色度分别进行归一化后得到的值中的任意两个或所有的平均值或加权平均值作为像素值的图像生成边缘图像，根据该边缘图像的各像素的像素值是否在规定的阈值以上生成二值图像。

回到图4，文字识别部206对由二值化部205生成的二值图像进行文字识别，将识别到的各文字的编码信息存储到第2存储部25中（步骤S407），完成一系列步骤。其后，例如由使用者介由输入部24发出的显示输入图像中的文字的指示一旦产生，第2中央处理部26就将存储在第2存储部25中的与各编码信息相应的文字显示到显示部23上。另外，在判定输入图像中不包含文字成分，且二值化部205没有生成二值图像的情况下，文字识别部206不进行文字识别地完成一系列步骤。

另外，在步骤S404中，虽然示出了直方图生成部203生成各像素的亮度值的直方图的示例，但本发明不限定于此。直方图生成部203既可以基于各像素的像素值生成直方图，也可以基于例如各像素的边缘强度生成直方图。在该情况下，直方图生成部203对由区域分割部202分割成的各图像区域，对各像素的亮度、明亮度或色度生成应用Prewitt过滤器、Sobel过滤器等的边缘检测过滤器得到的边缘图像，然后生成已生成的边缘图像的各像素的像素值的直方图。

如上所述，在一般的原稿中，文字的明亮程度和背景的明亮程度分别均匀，各自的明亮程度有较大差异以使使用者能够明确地区别文字和背景。因此，边缘强度在文字和背景相邻的部分具有一定的较高值，在其它部分具有一定的较低值。另一方面，图片、照片等明亮程度不均匀，有平稳地变化的倾向。因此，在图片、照片等部分中的边缘强度有比文字和背景的边界上的边缘强度低且分布于较宽的范围的倾向。因而，在边缘强度的直方图中，与亮度值的直方图一样，文字成分和背景成分的分布宽度有变窄的倾向，非文字成分的分布宽度变宽的倾向。因此，成分判定部204同使用亮度值的直方图的情况一样，能够使用边缘强度的直方图，对各图像区域内是否分别包含有文字成分和非文字成分进行判定。

如上所详述的那样，通过依照图4所示的流程图进行动作，信息处理装置20对文字和图片、照片等混在一起的原稿，通过将文字与图片、照片等高精度地分离来识别文字，对不包含图片、照片等的原稿可以高速地识别文字。由此，在确保文字识别的精度的同时，可以高速地进行文字识别。

图10是示出图像处理部的其它例的概略构成图。图10所示的图像处理部28在图1所示的信息处理装置20中可代替图像处理部27来使用。图10所示的图像处理部28与图2所示的图像处理部27不同，不具有区域分割部202。

图11是示出使用图10所示的图像处理部28的信息处理装置20的文字识别处理的动作的示例的流程图。以下，参照图11所示的流程图对文字识别处理的动作的其它示例进行说明。在图1所示的信息处理装置20中，该流程图可代替图4所示的流程图来被执行。另外，以下说明的动作的流程是基于预先被存储在第2存储部25中的程序，主要通过第2中央处理部26与信息处理装置20的各要素协同来执行的。

图11所示的流程图中，与图4所示的流程图不同，信息处理装置20不实施步骤S403的区域分割处理，该步骤之后，不是对各个图像区域，而是对输入图像整体实施各处理。即，在步骤S1103中，直方图生成部203对输入图像整体生成直方图。然后，在步骤S1104中，成分判定部204基于对输入图像整体生成的直方图对是否分别包含有文字成分和非文字成分进行判定。然后，在步骤S1105中，二值化部205在输入图像中包含有文字成分和非文字成分两者的情况下，生成通过第1处理对输入图像进行二值化后得到的二值图像，在输入图像中包含文字成分且不包含非文字成分的情况下，生成通过第2处理对输入图像进行二值化后得到的二值图像。图11所示的步骤S1101～S1102、S1106的处理由于与图4所示的步骤S401～S402、S407的处理相同，故省略说明。

如以上详述的，在依照图11所示的流程图进行动作的情况下，信息处理装置20也能在确保文字识别的精度的同时，高速地进行文字识别。

图12是示出图像处理部的另外其它例的概略构成图。图12所示的图像处理部29在图1所示的信息处理装置20中，可以代替图像处理部27。图12所示的图像处理部29中除图2所示的图像处理部27的各部之外，还具有布局分析部207。该布局分析部207在图9所示的流程图的步骤S905中被判定为Yes的情况下，即在输入图像中不存在第1属性区域且存在第2属性区域和第3属性区域的情况下，对输入图像进行详细的布局分析。

布局分析部207基于各像素的亮度值对亮度图像进行二值化，以使背景成分与除它之外的成分相分离，通过标记等手法抽出除背景成分之外的成分的连通成分。然后，布局分析部207求出各连通成分的外接矩形，将相互重叠的外接矩形合并为重叠矩形。进一步地，布局分析部207生成该重叠矩形的大小的直方图，判定非常大的矩形（例如按从大到小的顺序的前10%）为非文字成分，将其它矩形作为文字成分的候补。

布局分析部207针对文字成分的各候补，将其与在横向或纵向上的规定距离（例如该外接矩形的长边的规定倍数）之内且最为接近的其它候补相结合作为行元素。另外，将没有与其它候补相结合的候补判定为非文字成分。

布局分析部207在横向的行元素被抽出的情况下，对各横行元素，将其与在纵向上的规定距离（例如该横行元素的纵向长度的规定倍数）之内且最为接近的横行元素相结合作为段元素。另一方面，在纵向的行元素被抽出的情况下，对各纵行元素，将其与在横向上的规定距离（例如，该纵行元素的横向的长度的规定倍数）之内且最为接近的纵行元素相结合作为段元素。布局分析部207判定各段元素为文字成分，判定没有与其它行元素相结合的行元素为非文字成分。

并且，二值化部205在输入图像中不存在第1属性区域且存在第2属性区域和第3属性区域的情况下，仅对被布局分析部207判定为文字成分的各段元素，基于各像素的亮度值进行二值化。

如以上所详述的那样，信息处理装置20在输入图像中文字成分被包含在与非文字成分相分离的位置的情况下，可以更加高精度地抽出文字成分。

图13是示出其它实施方式所涉及的图像处理系统2的概略构成的图。图13所示的图像处理系统2与图1所示的图像处理系统1之间的差异在于，具有图像处理部的装置不同。即图像处理系统2中，不是信息处理装置40，而是图像读取装置30具有图像处理部36。该图像处理部36具有与信息处理装置20的图像处理部27、28或29一样的功能。

图13所示的图像处理系统2能够执行与图3、4、11所示的处理几乎一样的处理。以下，对对于图3的流程图所示的图像读取处理以及图4、11的流程图所示的文字识别处理如何适应进行说明。在图像处理系统2中，步骤S301的处理以及步骤S402～S407、S1102～S1106的处理是基于预先被存储在第1存储部34中的程序，主要通过第1中央处理部35与图像读取装置30的各要素协作来执行的。

步骤S301中，图像读取装置30的图像输入部31生成对摄像对象物进行拍摄得到的输入图像并保存到第1图像存储器部32中。由于文字识别处理是在图像读取装置30中实施，步骤S302、S401、S1101的输入图像的收发信号处理被省略。

步骤S402～S407、S1102～S1106的处理是由图像读取装置30的图像处理部36来执行的。这些处理的动作与由关于图像处理系统1已说明的信息处理装置20的图像处理部27～29执行的情况一样。图像读取装置30的文字识别部206介由第1接口部33将识别到的各文字的编码信息发送到信息处理装置40。另一方面，信息处理装置40的第2中央处理部46将接收到的各文字的编码信息存储到第2存储部45。

这样，图像读取装置30具有图像处理部36并执行文字识别处理的情况也能够得到同信息处理装置具有图像处理部并执行文字识别处理的情况一样的效果。

以上，对本发明的适合的实施方式进行了说明，但本发明并不限定于这些实施方式。例如，图像读取装置和信息处理装置的功能分工不限于图1和图13所示的图像处理系统的示例，包含图像处理部内的各部地将图像读取装置以及信息处理装置的各部配置到图像读取装置和信息处理装置的任一个也可以是适当的变更。或者，也可以将图像读取装置和信息处理装置构成为一个装置。

又，在图1所示的图像处理系统1中，在图像读取装置10与信息处理装置20介由有线或无线的网络相连接的情况下，为了能够以云计算的方式来提供图像处理的服务，也可以在网络上分散地配置多个信息处理装置20，各信息处理装置20相互协作，来分担区域分割处理、二值化处理等。由此，图像处理系统1能够对多个图像读取装置10读取到的输入图像，高效率地实施区域分割处理和二值化处理。

同样地，在图13所示的图像处理系统2中也可以介由网络来连接图像读取装置30的第1接口部33和信息处理装置40的第2接口部41。

Claims

1.一种图像处理装置，其特征在于，包括：

直方图生成部，其基于输入图像中的各像素的像素值来生成直方图；

成分判定部，其基于所述直方图对所述输入图像中是否包含有文字成分、是否包含有除所述文字成分和背景成分之外的非文字成分进行判定；

二值化部，其在所述输入图像中包含有所述文字成分和所述非文字成分两者的情况下，通过基于各像素的边缘强度对该输入图像进行二值化的第1处理来生成二值图像，在所述输入图像中包含有所述文字成分且不包含所述非文字成分的情况下，通过基于各像素的亮度值对该输入图像进行二值化的第2处理来生成二值图像；

文字识别部，其对所述二值图像进行文字识别。

2.如权利要求1所述的图像处理装置，其特征在于，还包括：

区域分割部，其将所述输入图像分割成各个以具有规定范围内的亮度值的像素相连通的区域为边界的图像区域，

所述直方图生成部对各所述图像区域，分别生成所述直方图，

所述成分判定部对各所述图像区域，判定是否包含有所述文字成分、是否包含有所述非文字成分，

所述二值化部在所述输入图像中包含有所述文字成分和所述非文字成分两者的情况下，当所述图像区域的至少一个中包含有所述文字成分和所述非文字成分两者时，通过所述第1处理来生成二值图像，当所述图像区域的任一个都不包含所述文字成分和所述非文字成分两者时，不通过所述第1处理，而是仅对包含有所述文字成分的图像区域通过基于各像素的亮度值进行二值化来生成二值图像。

3.如权利要求1或2所述的图像处理装置，其特征在于，

所述二值化部在所述第1处理中，基于各像素的至少颜色分量来计算所述边缘强度。

4.如权利要求1或2所述的图像处理装置，其特征在于，

作为所述第1处理，所述二值化部对各规定区域分别设定二值化阈值并对各像素的亮度值进行二值化，作为所述第2处理，所述二值化部为所有像素共同设定二值化阈值并对各像素的亮度值进行二值化。

5.如权利要求1或2所述的图像处理装置，其特征在于，

所述直方图生成部基于各像素的边缘强度来生成所述直方图。

6.一种文字识别方法，其特征在于，包含：

基于输入图像中的各像素的像素值来生成直方图的步骤；

基于所述直方图对所述输入图像中是否包含有文字成分、是否包含有除所述文字成分和背景成分之外的非文字成分进行判定的步骤；

在所述输入图像中包含有所述文字成分和所述非文字成分两者的情况下，通过基于各像素的边缘强度对该输入图像进行二值化的第1处理来生成二值图像，在所述输入图像中包含有所述文字成分且不包含所述非文字成分的情况下，通过基于各像素的亮度值对该输入图像进行二值化的第2处理来生成二值图像的步骤；

对所述二值图像进行文字识别的步骤。