CN101753764A

CN101753764A - 图像处理装置及方法、图像读取装置、图像发送装置

Info

Publication number: CN101753764A
Application number: CN200910259127A
Authority: CN
Inventors: 吉田章人
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 2008-12-17
Filing date: 2009-12-11
Publication date: 2010-06-23
Anticipated expiration: 2029-12-11
Also published as: US20100149569A1; US8363963B2; JP2010146185A; CN101753764B

Abstract

本发明涉及图像处理装置及方法、图像读取装置、图像发送装置，具有：文字识别部，根据从原稿读取而取得的图像数据，对上述原稿中包含的文字进行文字识别处理；和格式化处理部，生成使通过文字识别处理而获得的文本数据与上述图像数据相互对应的图像文件。在检测出多个文字识别结果的候补的情况下，文字识别部分别生成与这些各候补对应的文本数据，格式化处理部将文字识别部生成的各文本数据分别与图像数据相互对应，生成图像文件。由此，在生成使从原稿读取而取得的图像数据、与通过对该图像数据进行文字识别处理而获得的文本数据相互对应的图像文件的图像处理装置中，当进行基于上述文本数据的关键字检索时，可抑制漏检索的发生。

Description

图像处理装置及方法、图像读取装置、图像发送装置

技术领域

本发明涉及生成使从原稿读取得到的图像数据、与通过对该图像数据进行文字识别处理而获得的文本数据相互对应的图像文件的图像处理装置、图像读取装置、图像发送装置、图像形成装置以及图像处理方法。

背景技术

以往，有一种利用扫描仪读取被记载在纸介质的原稿上的信息，来取得图像数据，然后对该图像数据实施文字识别处理，生成与该图像数据中包含的文字相关的文本数据，并生成使上述图像数据与上述文本数据对应的图像文件的技术。

例如，在专利文献1中公开了一种利用扫描仪读取被记载在纸介质上的信息，来取得PDF图像数据，然后对该PDF图像数据实施文字识别处理，生成文本数据，并检测出该PDF图像数据的余白区域及余白区域的颜色，将上述文本数据以和余白区域相同的颜色嵌入到上述PDF图像数据的余白区域中的技术。根据该技术，可在不降低图像品质的情况下，进行使用了文本数据的检索处理等。即，由于文本数据被以和余白区域相同的颜色嵌入到余白区域中，所以，不会被用户看到，图像品质不会降低。而且，通过根据被嵌入在余白区域中的文本数据进行关键字检索等，可抽出在原稿中记载的信息。

[专利文献1]日本国公开专利公报“特开2004-280514号公报(平成16年10月7日)”

[专利文献2]日本国公开专利公报“特开平7-192086号公报(平成7年7月28日公开)”

但是，在上述专利文献1的技术中，使用了针对1个文字只对应1个文字识别结果的文本数据。因此，例如在不知道图像数据中的文字书写方向是纵书还是横书的情况、和针对1个文字存在多个文字识别结果的候补的情况下等，如果使用上述文本数据进行检索处理，则有时会发生漏检索。

发明内容

本发明鉴于上述问题提出，其目的是，在生成使从原稿读取得到的图像数据、与通过对该图像数据进行文字识别处理而获得的文本数据相互对应的图像文件的图像处理装置中，当进行基于上述文本数据的关键字检索时，抑制漏检索的发生。

为了解决上述问题，本发明的图像处理装置具有：文字识别部，其根据从原稿读取而取得的图像数据，对上述原稿中包含的文字进行文字识别处理；和图像文件生成部，其生成使通过文字识别处理而获得的文本数据与上述图像数据相互对应的图像文件；其特征在于，在检测出多个文字识别结果的候补的情况下，上述文字识别部分别生成与这些各候补对应的文本数据，上述图像文件生成部使上述文字识别部生成的各文本数据与上述图像数据相互对应，生成上述图像文件。

另外，为了解决上述问题，本发明的图像处理方法包括：文字识别步骤，根据从原稿读取而取得的图像数据，对上述原稿中包含的文字进行文字识别处理；和图像文件生成步骤，生成使通过文字识别处理而获得的文本数据与上述图像数据相互对应的图像文件；其特征在于，当在上述文字识别步骤中检测出多个文字识别结果的候补时，分别生成与这些各候补对应的文本数据，在上述图像文件生成步骤中，将在上述文字识别步骤中生成的各文本数据与上述图像数据相互对应，生成上述图像文件。

根据上述的图像处理装置及图像处理方法，在检测出多个文字识别结果的候补的情况下，分别生成与这些各候补对应的文本数据，并且使生成的各文本数据与上述图像数据对应，生成上述图像文件。由此，在使用生成的图像文件进行关键字检索时，即使是存在多个文字识别结果的候补的情况，也能够将这些各候补包含在检索对象中。从而，可抑制漏检索的发生。

如上所述，本发明的图像处理装置及图像处理方法，在检测出多个文字识别结果的候补的情况下，分别生成与这些各候补对应的文本数据，并且使生成的各文本数据与上述图像数据对应，生成上述图像文件。

由此，在使用生成的图像文件进行关键字检索时，即使是存在多个文字识别结果的候补的情况，也能够将这些各候补包含在检索对象中。从而，可抑制漏检索的发生。

附图说明

图1是表示本发明的一个实施方式涉及的图像处理装置中的处理流程的流程图。

图2是表示本发明的一个实施方式涉及的图像处理装置的概略结构、以及图像形成模式下的数据流的框图。

图3是表示图2所示的图像处理装置中的图像发送模式下的数据流的框图。

图4是表示图2所示的图像处理装置所具备的图像输入装置的结构例的剖面图。

图5是表示图2所示的图像处理装置所具备的原稿检测部的概略结构的框图。

图6是表示图4所示的图像输入装置中的扫描范围与扫描时的原稿位置的关系的一例的说明图。

图7是用于对图5所示的原稿检测部中的布局解析处理进行说明的说明图。

图8是表示在图2所示的图像处理装置中，中间调修正处理所使用的伽玛曲线的一例的曲线图。

图9是表示由图4所示的图像输入装置读取的原稿的一例的说明图。

图10是表示在图2所示的图像处理装置中，在图像发送模式时发送的图像文件的结构的说明图。

图11是表示在图2所示的图像处理装置中，用于透明文本数据嵌入到图像数据中的指令的一例的说明图。

图12(a)是表示针对在图2所示的图像处理装置中生成的图像文件的关键字检索结果的一例的说明图。

图12(b)是表示针对在图2所示的图像处理装置中生成的图像文件的关键字检索结果的一例的说明图。

图12(c)是表示针对在图2所示的图像处理装置中生成的图像文件的关键字检索结果的一例的说明图。

图12(d)是表示针对在图2所示的图像处理装置中生成的图像文件的关键字检索结果的一例的说明图。

图12(e)是表示针对在图2所示的图像处理装置中生成的图像文件的关键字检索结果的一例的说明图。

图12(f)是表示针对在图2所示的图像处理装置中生成的图像文件的关键字检索结果的一例的说明图。

图13是表示图2所示的图像处理装置的变形例的框图。

图14是表示图2所示的图像处理装置的变形例的框图。

图15是表示图2所示的图像处理装置的变形例的框图。

图中：1-数字彩色复合机(图像处理装置、图像读取装置、图像发送装置)；2-图像输入装置；3、3b-图像处理装置；4-图像输出装置；5-通信装置；6-操作面板；14-原稿检测部；15-原稿修正部；21-区域分离部；22-图像文件生成部；23-存储部；24-控制部；31-信号转换部；32-2值化处理部；33-分辨率转换部；34-原稿倾斜检测部；35-布局解析部；41-文字识别部；42-描画指令生成部；43-格式化处理部；100-图像读取装置(图像处理装置、图像读取装置)。

具体实施方式

下面，对本发明的一个实施方式进行说明。其中，在本实施方式中，主要是对将本发明应用到数字彩色复合机的情况的一例进行说明。

(1)数字彩色复合机的整体结构

图2及图3是表示本实施方式涉及的数字彩色复合机1的概略结构的框图。其中，数字彩色复合机1具备下述2种模式：(1)将与图像输入装置2读取的图像数据对应的图像，利用图像输出装置4形成到记录材料上的图像形成模式；及(2)将包含对图像输入装置2读取的图像数据实施了倾斜修正等处理后的图像数据、和对该图像数据实施文字识别处理而取得的文本数据的图像文件，利用通信装置5向外部装置发送的图像发送模式。而且，图2表示图像形成模式下的数据流、图3表示图像发送模式下的数据流。

如图2及图3所示，数字彩色复合机1具有：图像输入装置2、图像处理装置3、图像输出装置4、通信装置5和操作面板6。

图像输入装置2用于读取原稿的图像，生成图像数据，例如由具有CCD(Charge Coupled Device)等将光学信息转换成电信号的器件的扫描部(未图示)构成。在本实施方式中，图像输入装置2将来自原稿的反射光像转换成RGB(R：红、G：绿、B：蓝)的模拟信号，并输出到图像处理装置3。

图4是表示图像输入装置2的一例的剖面图。该图所示的图像输入装置2具有上部框体60和下部框体61。上部框体(原稿盖)60具有：原稿按压垫57、调整辊对55、原稿搬送路56、图像传感部53、上侧原稿搬送导向件58等，下部框体61具有：第1接触玻璃(原稿台)51、第2接触玻璃52、读取部70、和遮光部件59等。而且，上部框体60构成为可相对下部框体61开闭。

其中，图像输入装置2具有下述3种模式：(1)由读取部70对被载置在第1接触玻璃51上的原稿的下面侧进行读取的静止读取模式；(2)由读取部70对在第2接触玻璃52上行进(移动)的原稿的下面侧进行读取的行进读取模式；和(3)由读取部70对在第2接触玻璃52上行进(移动)的原稿的下面侧进行读取，同时利用图像传感部53读取上面侧的双面读取模式。

调整辊对55用于在行进读取模式及双面读取模式下，进行原稿角度的调整，使被搬送来的原稿的前端与搬送方向垂直。通过使被搬送来的原稿的前端顶靠在旋转停止状态的调整辊对55的夹合(nip)部，使该原稿形成规定的翘曲，然后，通过使调整辊对55旋转，来调整上述原稿的方向，将其搬送到调整辊对55的下游侧。

图像传感部53用于在选择了双面模式时，读取在第2接触玻璃52上被搬送的原稿的上面侧的图像。

原稿按压垫57用于在选择了静止读取模式时，将被载置在第1接触玻璃51上的原稿向第1接触玻璃51侧按压，使原稿的位置固定。

读取部70具有：第1扫描单元63、第2扫描单元64、成像透镜65和CCD(Charge Coupled Device)66。

第1扫描单元63具有：对原稿的读取面进行曝光的光源(曝光灯)62、和将来自原稿的反射光向第2扫描单元64反射的第1反射镜67。

其中，第1扫描单元63在静止读取模式时，一边从图中的P位置向右，平行于第1接触玻璃51以一定的速度V移动与原稿尺寸对应的距离，一边利用从光源62射出的光对载置在第1接触玻璃51上的原稿进行曝光，并利用第1反射镜67反射来自原稿的反射光，将其导入到第2扫描单元64。上述原稿尺寸可以是由未图示的原稿尺寸检测机构(例如由光电晶体管等光电转换元件构成的原稿尺寸检测单元)对被载置在第1接触玻璃51上的原稿尺寸进行检测的结果，也可以是用户通过操作面板输入的尺寸。另外，在本实施方式中，第1接触玻璃51形成为能够读取最大为A3尺寸的原稿的大小。

而且，第1扫描单元63在行进读取模式时及双面读取模式时，在与第2接触玻璃52对置的规定位置，利用从光源62射出的光对在第2接触玻璃52上被搬送的原稿进行曝光，并利用第1反射镜67反射来自原稿的反射光，将其导入到第2扫描单元64。

第2扫描单元64具有第2反射镜68和第3反射镜69，构成为由这两个反射镜将从第1反射镜67入射的光导入到成像透镜65及CCD66。其中，第2扫描单元64在静止读取模式下，追随第1扫描单元63，以V/2的速度移动。

遮光部件59用于防止因读取部54的光源62的光入射到图像传感部53而造成图像传感部53不能以恰当的浓度读取图像的情况。

成像透镜65用于将从第3反射镜69射入的来自原稿的反射光，成像到CCD66上

CCD66用于将经由成像透镜65射入的光转换成模拟的电信号。其中，该电信号由后述的图像处理装置3转换成数字的图像数据。另外，在双面读取模式的情况下，由读取部70读取的原稿下面侧的图像数据被输入到图像处理装置3中进行处理，然后，由图像传感部53读取的原稿上面侧的图像数据被输入到图像处理装置3中进行处理。在图像处理装置3中原稿下面侧的图像数据被处理的期间，由图像传感部53读取的原稿上面侧的图像数据被暂时保存到未图示的存储器中，当对原稿上面侧的图像数据的处理结束时，将其从该存储器中读出，送到图像处理装置3中进行处理。

图像处理装置3如图2及图4所示，具有A/D转换部11、阴影修正部12、输入处理部13、原稿检测部14、原稿修正部15、色修正部16、黑生成底色除去部17、空间滤波处理部18、输出灰度修正部19、中间调生成部(中间色调生成部)20、区域分离部21、图像文件生成部22、存储部23及控制部24。存储部23是对图像处理装置3所处理的各种数据(图像数据等)进行存储的存储机构。对存储部23的结构没有特殊限定，例如可使用硬盘等。而控制部24是控制图像处理装置3所具备的各部的动作的控制机构。该控制部24可以是设置在数字彩色复合机1的主控制部(未图示)中的控制机构，也可以是独立于主控制部设置，与主控制部相互配合进行处理的控制机构。

图像处理装置3在图像形成模式下，将对从图像输入装置2输入的图像数据实施各种图像处理而获得的CMYK图像数据输出到图像输出装置4。另外，在图像发送模式下，对从图像输入装置2输入的图像数据实施倾斜修正处理、图像区域抽出处理、变倍处理、旋转处理等图像处理，并且对图像数据实施文字识别处理，取得文本数据，生成包含图像数据和文本数据的图像文件，并输出到通信装置5。其中，关于图像处理装置3的详细内容将在后面说明。

图像输出装置4用于将从图像处理装置3输入的图像数据输出到记录材料(例如纸等)上。图像输出装置4的结构没有特殊限定，例如可以使用采用了电子照片方式或喷墨方式的图像输出装置。

通信装置5例如由调制解调器和网卡构成。通信装置5通过网卡、LAN线缆等与和网络连接的其他装置(例如个人计算机、服务器装置、显示装置、其他数字复合机、传真装置等)进行数据通信。通信装置5在发送图像数据的情况下，进行与对方地址的发送联络，在确保了可发送的状态时，从存储器中读出以规定格式压缩的图像数据，实施压缩格式的变更等必要的处理，通过通信线路，依次发送给对方。另外，通信装置5在接收图像数据的情况下，在进行通信联络的同时，接收从对方发送来的图像数据，并输入到图像处理装置3中。接收到的图像数据在图像处理装置3中被实施解压缩处理、旋转处理、分辨率转换处理、输出灰度修正、灰度再现处理等规定的处理，然后由图像输出装置4输出。另外，也可以将接收到的图像数据保存到存储装置(未图示)中，图像处理装置3根据需要将其读出，实施上述规定的处理。

操作面板6例如由液晶显示器等显示部和设定按钮等构成(均未图示)，在上述显示部上显示与数字彩色复合机1的主控制部(未图示)的指示对应的信息，并且将用户通过上述设定按钮输入的信息传达给上述主控制部。用户可以通过操作面板6，输入对于输入图像数据的处理模式、打印枚数、纸尺寸、发送对方地址等各种信息。

上述主控制部例如由CPU(Central Processing Unit)等构成，根据在未图示的ROM等中存储的程序和各种数据、以及从操作面板6输入的信息等，控制数字彩色复合机1的各部的工作。

下面，对图像处理装置3中具备的各部在上述各模式下的处理进行说明。

(2)图像处理装置3的结构及动作

(2-1)图像形成模式

下面，对图像处理装置3的结构、及在图像形成模式下的图像处理装置3的动作进行详细说明。在图像形成模式的情况下，如图2所示，首先，A/D转换部11将从图像输入装置2输入的RGB模拟信号转换成数字信号，并输出到阴影修正部12。

阴影修正部12对从A/D转换部11送来的数字RGB信号，实施除去在图像输入装置2的照明系统、成像系统、摄像系统中产生的各种失真的处理，然后输出到输入处理部13。

输入处理部(输入灰度修正部)13对被阴影修正部12被除去了各种失真后的RGB信号调整彩色平衡，同时进行转换成浓度信号等图像处理装置3中采用的图像处理系统容易处理的信号的处理。而且，进行底色浓度的除去和对比度等画质调整处理。并且，输入处理部13将实施了上述各种处理的图像数据存储到存储部23中。

原稿检测部(条件检测部)14根据图像数据检测出原稿图像的倾斜角度、上下方向、图像数据中的作为存在图像的区域的图像区域等。而且，原稿修正部15根据原稿检测部14的检测结果，对图像数据进行倾斜修正处理、上下修正处理、和图像抽出处理等。

图5是表示原稿检测部14的概略结构的框图。如该图所示，原稿检测部14具有：信号转换部31、2值化处理部32、分辨率转换部33、原稿倾斜检测部34及布局解析部35。

信号转换部31用于在由输入处理部13实施了上述各种处理的图像数据是彩色图像的情况下，将该图像数据无彩化，转换成明度信号或辉度信号。

例如，信号转换部31通过运算Yi＝0.30Ri+0.59Gi+0.11Bi，将RGB信号转换成辉度信号Y。这里，Y是各像素的辉度信号，R、G、B是各像素的RGB信号中的各色成分，下标i是对每个像素赋予的值(i是1以上的整数)。

或者，也可以将RGB信号转换成CIE1976L^*a^*b^*信号(CIE：Commission International de 1’Eclairage、L^*：明度、a^*、b^*：色度)。

2值化处理部32通过将无彩化后的图像数据(辉度值(辉度信号)或明度值(明度信号))与预先设定的阈值进行比较，将图像数据2值化。例如，在图像数据为8比特的情况下，将上述阈值设定为128。或者，也可以将由多个像素(例如5像素×5像素)构成的区块的浓度(像素值)的平均值作为阈值。

分辨率转换部33将2值化后的图像数据的分辨率转换成低分辨率。例如，将以1200dpi、750dpi或600dpi读取的图像数据转换成300dpi。分辨率转换方法没有特殊的限定，例如可使用公知的近邻取样(NearestNeighbor)法、双线性法、双三次法(bicubic)等。而且，分辨率转换部33将低分辨率化后的图像数据(在本实施方式中是300dpi的图像数据)输出到原稿倾斜检测部34。其中，分辨率转换部33在图像发送模式的情况下，将被低分辨率化为第1分辨率(在本实施方式中是300dpi)的图像数据输出到原稿倾斜检测部34和布局解析部35中，并且将被低分辨率化为第2分辨率(在本实施方式中是75dpi)的图像数据输出到布局解析部35。

原稿倾斜检测部34根据由分辨率转换部33转换成低分辨率的图像数据，检测图像读取时原稿相对扫描范围(正确的原稿位置)的倾斜角度，将检测结果输出到原稿修正部15。即，如图6所示，在相对图像输入装置2中的扫描范围(正确的原稿位置)，图像读取时的原稿位置发生了倾斜的情况下，检测该倾斜角度。

倾斜角度的检测方法没有特殊的限定，可使用以往公知的各种方法。例如，可以使用专利文献2中记载的方法。在该方法中，从2值化后的图像数据中抽出多个黑像素与白像素的交界点(例如各文字上端的白/黑交界点的坐标)，求出各交界点的点列的坐标数据。然后，根据该点列的坐标数据求出回归直线，根据下式(1)计算出其回归系数b。

b＝Sxy/Sx …(1)

其中，Sx、Sy分别是变量x、y的残差平方和，Sxy是x的残差与y的残差之积的和。即，Sx、Sy、Sxy可用下式(2)～(4)来表示。

[算式1]

Sx = Σ_{i = 1}^{n} {(x_{i} - x)}^{2} = Σ_{i = 1}^{n} x_{i}^{2} - {(Σ_{i = 1}^{n} x_{i})}^{2} / n - - - (2)

Sy = Σ_{i = 1}^{n} {(y_{i} - y)}^{2} = Σ_{i = 1}^{n} y_{i}^{2} - {(Σ_{i = 1}^{n} y_{i})}^{2} / n - - - (3)

Sxy = Σ_{i = 1}^{n} (x_{i} - x) (y_{i} - y) = Σ_{i = 1}^{n} x_{i} y_{i} - (Σ_{i = 1}^{n} x_{i}) (Σ_{i = 1}^{n} y_{i}) / n - - - (4)

然后，利用如上述那样计算出的回归系数b，根据下式(5)，计算出倾斜角度θ。

tanθ＝b …(5)

布局解析部35在图像形成模式下不动作。关于布局解析部35的动作将在后面说明。

原稿修正部15根据原稿倾斜检测部34的倾斜角度检测结果，对图像数据实施倾斜修正处理。而且，原稿修正部15将被实施了倾斜修正处理后的图像数据，输出到色修正部16及区域分离部21。

另外，也可以将由原稿修正部15实施了倾斜修正处理后的图像数据作为归档数据进行管理。该情况下，例如将上述图像数据根据JPEG压缩算法压缩成JPEG代码，保存到存储部23中。然后，在被指示了对该图像数据的复印输出动作、打印输出动作的情况下，从存储部23中取出JPEG代码，送到未图示的JPEG解压缩部，实施解压缩处理，转换成RGB数据。另外，在对上述图像数据指示了发送动作的情况下，从存储部23中取出JPEG代码，通过网络和通信线路，从通信装置5向外部装置发送。

色修正部16为了实现色再现的忠实化，进行根据包含不需要吸收成分的CMY(C：青、M：洋红、Y：黄)色材料的分光特性除去色浊的处理。

黑生成底色除去部17进行根据色修正后的CMY三色信号生成黑(K)信号的黑生成、和从原来的CMY信号减去通过黑生成得到的K信号而生成新的CMY信号的处理。由此，将CMY三色信号被转换成CMYK四色信号。

空间滤波处理部18对由黑生成底色除去部17输入的CMYK信号的图像数据，根据区域识别信号进行基于数字滤波器的空间滤波处理(强调处理和/或平滑化处理)，来修正空间频率特性。由此，可减轻输出图像的模糊和颗粒状劣化。

中间调生成部20与空间滤波处理部18同样，对CMYK信号的图像数据，根据区域识别信号实施规定的处理。例如，对于由区域分离部21分离为文字的区域，为了提高特别是黑文字或彩色文字的再现性，在空间滤波处理部18的空间滤波处理下的鲜锐强调处理中，增加高频的强调量。同时，在中间调生成部20中，可选择适合高频再现的利用高分辨率筛选(screen)的二值化或多值化处理。而对于由区域分离部21分离为网点区域的区域，在空间滤波处理部18中，实施用于除去输入网点成分的低通滤波处理。而且，在输出灰度修正部19中进行了将浓度信号等信号，转换成作为图像输出装置4的特性值的网点面积率的输出灰度修正处理后，在中间调生成部20中，实施最终将图像分离成像素，并按照能够再现各自的灰度的方式进行处理的灰度再现处理(中间调生成)。关于由区域分离部21分离成照片的区域，进行重视灰度再现性的利用筛选的二值化或多值化处理。

区域分离部21根据RGB信号将输入图像中的各像素，分离成黑文字区域、彩色文字区域、网点区域、相纸照片(连续灰度区域)区域的任意一种区域。区域分离部21根据分离结果，将表示像素属于哪个区域的区域分离信号输出到黑生成底色除去部17、空间滤波处理部18及中间调生成部20。

图像文件生成部22在图像形成模式下不动作。关于图像文件生成部22的详细内容，将在后面说明。

被实施了上述各处理的图像数据在被暂时保存到未图示的存储器中之后，在规定的时刻被读出、输入到图像输出装置4。

(2-2)图像发送模式

下面，参照图3，对图像发送模式下的图像处理装置3的动作进行详细说明。其中，通常发送模式下的A/D转换部11、阴影修正部12、输入处理部13、原稿修正部15及区域分离部21的处理，与图像形成模式时相同。

原稿检测部14中的信号转换部31、二值化处理部32、分辨率转换部33及原稿倾斜检测部34的动作，与图像形成模式的情况大致相同。

原稿检测部14中具备的布局解析部35在图像发送模式的情况下，如图7所示，抽出从分辨率转换部33输入的第2分辨率的图像数据中包含的文字，求出各文字的外接矩形，计算出相邻的外接矩形之间的距离。然后，根据该相邻的外接矩形之间的距离，判定图像数据的文字是纵书还是横书。而且，布局解析部35将表示判定结果的信号、和第1分辨率的图像数据输出到图像文件生成部22所具备的文字识别部41。另外，在难以明确判定是纵书还是横书的情况下，布局解析部35将表示该情况的信息作为判定结果输出。

具体而言，布局解析部35按每个像素判断图像数据中的沿着副扫描方向延伸的最初的行中所包含的各像素是否是黑像素，对被判定为是黑像素的像素分配规定的标记(label)。

然后，对与被附加了标记的上述行在主扫描方向上邻接的行，按每个像素判断该行中包含的各像素是否是黑像素，对被判断为是黑像素的像素分配与在完成了标记附加的上述行中使用的标记不同的标记。然后，对被判断为是黑像素的各像素，判断与该像素邻接的附加了标记的上述行的像素是否是黑文字，在判断为是黑文字的情况下，判断为黑像素相互连结，将该像素的标记变更成与邻接的附加了标记的上述行的像素相同的标记(与上一行的标记相同的标记)。

然后，对在主扫描方向排列的各行反复进行上述的处理，抽出被附加了相同标记的像素，由此进行文字的抽出。

然后，计算被抽出的各文字的外接矩形。其中，各文字及各外接矩形的坐标，例如将图像数据的左上端的位置作为原点，来进行计算。

另外，布局解析部35也可以对原稿内的每个区域进行布局识别处理。例如，布局解析部35可以抽出由外接矩形之间的距离大致均等的文字组构成的区域，对抽出的每个区域进行布局识别处理，由此来判断是纵书还是横书。

色修正部16将从原稿修正部15输入的RGB图像数据，转换成适合于一般普及的显示装置的显示特性的R’G’B’的图像数据(例如sRGB数据)，并输出到黑生成底色除去部17。黑生成底色除去部17在通常发送模式下，将从色修正部16输入的图像数据直接输出(直通)到空间滤波处理部18。

空间滤波处理部18对从黑生成底色除去部17输入的R’G’B’图像数据，根据区域识别信号，进行基于数字滤波器的空间滤波处理(强调处理和/或平滑处理)，并输出到输出灰度修正部19。输出灰度修正部19在通常发送模式下，将从空间滤波处理部18输入的图像数据直接输出(直通)到中间调生成部20。

中间调生成部20对从输出灰度修正部19输入的R’G’B’图像数据，根据区域识别信号实施规定的处理，并输出到图像文件生成部22。例如，中间调生成部20对文字区域进行使用了图8中用实线表示的伽玛曲线的修正，对文字区域以外的区域，进行使用了图8中用虚线表示的伽玛曲线的修正。其中，作为针对文字区域以外的区域的伽玛曲线，优选例如预先设定与发送对方的外部装置中具备的显示装置的显示特性对应的曲线，将文字区域的伽玛曲线设定成能够清楚显示文字。

从中间调生成部20输出的R’G’B’图像数据，被输入到图像文件生成部22的格式化处理部43。

图像文件生成部22具有：文字识别部41、描画指令生成部42及格式化处理部43。

文字识别部41根据从原稿检测部14输入的第2分辨率的图像数据，抽出图像数据中包含的文字的特征量，将抽出结果与字典数据中包含的文字的特征量比较，来进行文字识别，检测出与类似的文字对应的文字代码。而且，根据布局解析部35的判定结果(纵书还是横书)，进行由邻接的文字构成的单词的识别处理。即，通过进行邻接的文字的组合、与字典数据中包含的单词数据的匹配，来进行原稿中记载的单词的识别处理。然后，将各文字及各单词的识别结果，作为文字识别结果输出到描画指令生成部42。

其中，在本实施方式中，文字识别部41将从图像数据中包含的文字抽出的特征量、与字典数据中包含的文字的特征量进行比较，判定两者的相似度。然后，在字典数据包含的文字中存在多个与图像数据中包含的文字的相似度为规定值以上的文字的情况下，将这些多个文字的文字代码作为文字识别结果，输出到描画指令生成部42。

例如，相似度的取得值是从0到1的范围，在上述规定值被设定为0.8的情况下，即在字典数据所包含的文字中，包含相对图像数据中包含的文字的相似度为(0.726)、(0.891)、(0.931)、(0.776)、(0.722)的文字的情况下，与相似度(0.891)即(0.931)对应的各文字被作为文字识别结果检测出来。

另外，也可以在字典数据所包含的文字中，存在相对于与图像数据中包含的文字最类似的文字的相似度(最高最大值)的相似度之差小于规定值的文字的情况下，将这些各文字的文字代码作为文字识别结果输出到描画指令生成部42。

例如，在相似度的取得值是从0到1的范围、上述规定值被设定为0.2的情况下，即在字典数据所包含的文字中，包括与图像数据中包含的文字的相似度为(0.726)、(0.891)、(0.931)、(0.776)、(0.722)的文字的情况下，与最高相似度的(0.931)对应的文字、及与最高相似度之差小于0.2的(0.891)所对应的文字，被作为文字识别结果检测出。

由此，例如图9所示，在原稿中包含“开口部”这一字符串的情况下，针对文字“口”，检测出汉字的“口”、和片假名的“口”这2种文字识别结果。另外，如图9所示，在原稿中包含文字“シヤ一プ”的情况下，针对文字“一”，检测出长音符号“一”、和汉字的“一”这2种文字识别结果。

而且，文字识别部41根据布局解析部35的判定结果(纵书还是横书)，进行由相邻的文字构成的单词的识别处理。

例如，在布局解析部35的判定结果表示是横书，并且如图9所示那样，在原稿中包含了“开口部”这一字符串的情况下，可检测出“开口部(かいこうぶ)”和“开口部(かいロぶ)”这2个单词。同样，在布局解析部35的判定结果表示是横书，并且如图9所示那样，在原稿中包含了“シヤ一プ”这一字符串的情况下，可检测出“しや一ぷ”和“しやいちぷ”这2个单词。

另一方面，在布局解析部35的判定结果表示难以明确判定是纵书还是横书的情况下，文字识别部41对纵书的情况和横书的情况这2种情况进行单词的检测。例如，如图9所示，在原稿中包含“画面像中”这一文字的情况下，文字识别部41检测出“画面”、“像中”的单词(认为是横书的情况下检测出的单词)、和“画像”、“面中”的单词(认为是纵书的情况下检测出的单词)这2组单词。

其中，相似度的计算方法没有特别的限定，可以使用以往公知的各种方法。

描画指令生成部42生成用于将基于文字识别部41的文字识别结果的透明文本配置到图像文件内的指令。这里，透明文本是用于将被识别的文字及单词，作为文本信息以视觉看不到的形式重叠(或嵌入)到图像数据中的数据。例如，在PDF文件中，一般使用在图像数据中附加了透明文本的图像文件。

格式化处理部43根据从描画指令生成部42输入的指令，将透明文本嵌入到从中间调生成部20输入的图像数据中，生成规定格式的图像文件。然后，将生成的图像文件输出到通信装置5。其中，在本实施方式中，格式化处理部43生成PDF格式的图像文件。但图像文件的格式不限于此，只要是能够在图像数据中嵌入透明文本的格式即可。

图10是表示由格式化处理部43生成的PDF格式的图像文件的结构的说明图。如该图所示，上述图像文件由报头部、主体部、相互参照表及尾部构成。

在报头部中，包含对该文件是PDF文件进行表示的字符串和版本编号。在主体部中包含所显示的信息和页信息等。在相互参照表中，记述有用于访问主体部的内容的地址信息。在尾部中，记述有表示首先从哪里进行读取的信息等。

主体部由记述了针对由各页构成的对象的参照信息等的文书目录记述部、记述了每页的显示范围等信息的页记述部、记述了图像数据的图像数据记述部、和记述了在描画对应的页时所应用的条件的图像描画记述部构成。其中，页记述部、图像数据记述部及图像描画记述部与各页对应设置。

图11表示了将从图9所示的原稿检测出的文字识别结果，作为透明文本嵌入到图像数据的情况下，针对图像数据记述部的记述的一例。如该图所示，在对1个文字检测出多个文字识别结果的情况下，与对应于该文字的坐标建立对应关系地记述上述多个文字识别结果(文字代码)。另外，在不能判明是纵书还是横书的情况下，将被视为纵书而检测出的单词、和视为横书而检测出的单词双方，与对应的字符串的坐标建立对应关系地记述。

通信装置5将从格式化处理部43输入的图像文件，发送给通过网络构成可通信连接的外部装置。例如，通信装置5利用未图示的邮件处理部(任务装置)将上述图像文件附加在电子邮件中进行发送。

(2-3)图像处理装置3中的处理的概要

图1是表示图像处理装置3中的概略处理的流程的流程图。如该图所示，首先，控制部24受理通过操作面板6输入的来自用户的处理模式选择指示(S1)。而且，从图像输入装置2取得通过读取原稿而获得的图像数据(S2)。

然后，控制部24使原稿检测部14进行倾斜角度的检测(S3)，并根据该检测结果使原稿修正部15进行倾斜修正处理(S4)。

随后，控制部24判断在S1中选择指示的处理模式是否是图像形成模式(S5)。然后，在判断为选择了图像形成模式的情况下，对被实施了倾斜修正处理的图像数据实施规定的处理，并输出到图像输出装置4(S6)，然后结束处理。

另一方面，在S5中判断为不是图像形成模式的情况下，控制部24判断为在S1中选择指示的处理模式是图像发送模式，使原稿检测部14的布局解析部35进行布局解析(解析原稿图像中的文字方向是纵书还是横书的处理)(S7)。然后，控制部24判断是否能够确定布局(纵书还是横书)(S8)。

在S8中判断为能够确定布局的情况下，控制部24使文字识别部41根据基于与布局解析部35的解析结果对应的文字方向，进行文字识别处理(S9)。而在S8中判断为不能确定布局的情况下，控制部24使文字识别部41针对纵向及横向双方进行文字识别处理(S10)。

随后，控制部24对于原稿中包含的各文字，判断是否检测出了多个文字识别结果(S11)。然后，在只有1个文字识别结果的情况下，采用该识别结果(S12)；在存在多个文字识别结果的情况下，采用这些多个文字识别结果(S13)。

随后，控制部24使描画指令生成部42生成用于将基于文字识别结果的透明文本嵌入到图像数据中的透明文本的配置指令(S14)，使格式化处理部43生成针对被嵌入了透明文本的图像数据的规定形式的图像文件(格式化)(S15)。然后，控制部24将格式化后的图像文件通过通信装置5发送到外部装置(S16)，并结束处理。

如上所述，本实施方式涉及的数字彩色复合机1根据从原稿读取的图像数据进行文字识别处理，在检测出多个文字识别结果的候补的情况下，分别生成与这些各候补对应的文本数据，将生成的各文本数据作为透明文本嵌入到图像数据中。

由此，在根据被嵌入到图像数据中的透明文本进行关键字检索的情况下，可抑制关键字漏检索的发生。

图12(a)～图12(f)是表示对根据从图9所示的原稿读取的图像数据生成的图像文件，进行了关键字检索处理时的检索结果的一例的说明图。

在本实施方式中，由于将在视为横书的情况下检测出的单词、和在视为纵书的情况下检测出的单词双方作为透明文本，嵌入到图像数据中，所以，如图12(a)及图12(b)所示，在将关键字设为“画面”的情况、和设为“画像”的情况双方中，抽出对应的字符串。

而且，在本实施方式中，由于在对1个文字检测出多个文字识别结果的情况下，将这些多个文字识别结果作为透明文本嵌入到图像数据中，所以，如图12(c)及图12(d)所示，对于“开口部”这一字符串，无论是在将关键字作为“开口部(かいこうぶ)”的情况下，还是作为“开口部(かいロぶ)”的情况下，都抽出该“开口部”这一字符串。同样，如图12(e)及图12(f)所示，对于“シヤ一プ”这一字符串，无论是在将关键字设为“しや一ぷ”的情况下、还是设为“しやいちぷ”的情况下，都抽出该“シヤ一プ”这一字符串。

另外，在本实施方式中，构成为原稿检测部14将被二值化及低分辨率化后的图像数据输出到图像文件生成部22，但不限于此，例如，也可以构成为如图3的虚线所示，原稿修正部15将对上述的被二值化及低分辨率化后的图像数据实施了倾斜修正处理的图像数据输出到图像文件生成部22，由图像文件生成部22的文字识别部41使用倾斜修正后的上述图像数据，进行文字识别处理。由此，与根据倾斜修正前的图像数据进行文字识别的情况相比，可提高文字识别的精度。

而且，在本实施方式中，由原稿检测部14根据被转换成黑白二值(辉度信号)，并且被转换成低分辨率(例如300dpi)的图像数据进行了文字识别。由此，即使在文字尺寸比较大的情况下，也能够可靠地进行文字识别处理。但是，文字识别处理中使用的图像的分辨率不限于上述的例子。

并且，在本实施方式中，说明了格式化处理部43生成PDF格式的图像文件时的实施例，但不限于此，只要是图像数据与文本数据能够相互对应的格式的图像文件即可。例如，也可以在以演示软件(presentation soft)等格式配置了文本数据的基础上，重叠配置图像数据，生成使文本数据处于不可视状态，而只使图像数据处于可视状态的图像文件。

另外，在本实施方式中，说明了将嵌入了透明文本的图像数据通过通信装置5发送到外部装置的情况，但不限于此。例如，也可以将嵌入了透明文本的图像数据保存到数字彩色复合机1所具备的存储部、或可插拔安装在数字彩色复合机1的存储部中。

此外，在本实施方式中，文字识别部41根据从原稿检测部14或原稿修正部15输入的被实施了二值化及低分辨率化的图像数据，实施文字识别处理，但不限于此。例如，也可以如图13所示，将从区域分离部21输出的区域分离信号输入给文字识别部41，由文字识别部41根据该区域分离信号，生成表示文字区域(由被判定为文字边缘的像素构成的图像区域)的文本位图，只对文字区域进行文字识别处理。

或者，也可以如图14所示，设置根据图像数据来判别原稿种类的原稿种类自动判别部25，将从该原稿种类自动判别部25输出的原稿种类判别信号输入到文字识别部41，只在原稿种类判别信号表示是包含文字的原稿(例如文字原稿、文字打印照片原稿、文字照片纸照片原稿等)的情况下，由文字识别部41根据从原稿检测部14或原稿修正部15输入的被实施了二值化及低分辨率化的图像数据，进行文字识别处理。原稿种类自动判别部25中的原稿种类判别方法，只要是至少能够判别出包含文字的原稿和不包含文字的原稿的方法即可，没有特殊的限定，可以使用以往公知的各种方法。

另外，在本实施方式中，说明了将本发明应用到数字彩色复合机中的情况，但不限于此，也可以应用到黑白复合机中，而且，不限于复合机，例如也可以应用到单独的图像读取装置中。

图15是表示将本发明应用到图像读取装置时的结构例的框图。该图所示的图像读取装置100具有：图像输入装置2、图像处理装置3b、通信装置5和操作面板6。由于图像输入装置2、通信装置5及操作面板6的结构和功能，与上述的数字彩色复合机1的情况大致相同，所以这里省略其说明。

图像处理装置3b具有：A/D转换部11、阴影修正部12、输入处理部13、原稿检测部14、原稿修正部15、色修正部16、图像文件生成部22、存储部23以及控制部24。而且，图像文件生成部22具有：文字识别部41、描画指令生成部42和格式化处理部43。

其中，除了不具备图像形成模式这一点；和色修正部16将色修正处理后的图像数据输出到格式化处理部43，由格式化处理部43根据从色修正部16输入的图像数据生成向外部装置发送的图像文件这一点以外，图像处理装置3b所具备的各部的功能与上述数字彩色复合机1的情况大致相同。在图像处理装置3b中被实施上述各处理而生成的图像文件，被通信装置5被发送给通过网络构成可通信连接的计算机或服务器等。

另外，在上述各实施方式中，也可以使用CPU等处理器，通过软件来实现数字彩色复合机1、图像读取装置100所具备的各部(各个单元)。该情况下，数字彩色复合机1、图像读取装置100具有：执行实现各种功能的控制程序的指令的CPU(central processing unit)、储存了上述程序的ROM(read only memory)、展开上述程序的RAM(randomaccess memory)、和储存上述程序及各种数据的存储器等存储装置(记录介质)等。而且，本发明的目的可通过将记录了实现上述功能的软件、即数字彩色复合机1、图像读取装置100的控制程序的程序代码(执行形式程序、中间代码程序、源程序)的计算机可读取记录介质，提供给数字彩色复合机1、图像读取装置100，由其计算机(或CPU、MPU)读出并执行该记录介质中记录的程序代码来实现。

作为上述记录介质，例如可以使用磁带与盒式磁带等带类、包括软盘(注册商标)/硬盘等磁盘和CD-ROM/MO/MD/DVD/CD-R等光盘的盘类、IC卡(包括存储卡)/光卡等卡类、或者掩模ROM/EPROM/EEPROM/闪存ROM等半导体存储器类等。

另外，也可以将数字彩色复合机1、图像读取装置100构成为能够与通信网络连接，借助通信网络供给上述程序。作为该通信网络，没有特殊的限定，例如可以利用互联网、内部网、扩展网、LAN、ISDN、VAN、CATV通信网、虚拟专用网(virtual private network)、电话线路网、移动体通信网、卫星通信网等。而且，作为构成通信网络的传送介质，没有特殊的限定，例如可以利用IEEE1394、USB、电力线传送、有线TV线路、电话线、ADSL线路等有线方式，也可以利用IrDA和远程控制那样的红外线、Bluetooth(注册商标)、802.11无线、移动电话网、卫星线路、地表波数字网等无线方式。此外，本发明也能够以通过电子传送将上述程序代码具体化的被嵌入到载波中的计算机数据信号的形式实现。

而且，数字彩色复合机1、图像读取装置100的各单元不限于使用软件来实现，也可以由硬件逻辑电路构成，还可以将进行处理的一部分的硬件、与执行该硬件的控制和进行其余处理的软件的运算机构组合。

如上所述，本发明的图像处理装置具有：文字识别部，其根据从原稿读取而取得的图像数据，对上述原稿中包含的文字进行文字识别处理；和图像文件生成部，其生成使通过文字识别处理而获得的文本数据与上述图像数据相互对应的图像文件；其中，在检测出多个文字识别结果的候补的情况下，上述文字识别部分别生成与这些各候补对应的文本数据，上述图像文件生成部使上述文字识别部生成的各文本数据与上述图像数据相互对应，生成上述图像文件。

而本发明的图像处理方法包括：文字识别步骤，根据从原稿读取而取得的图像数据，对上述原稿中包含的文字进行文字识别处理；和图像文件生成步骤，生成使通过文字识别处理而获得的文本数据与上述图像数据相互对应的图像文件；其中，当在上述文字识别步骤中检测出多个文字识别结果的候补的情况下，分别生成与这些各候补对应的文本数据，在上述图像文件生成步骤中，使在上述文字识别步骤中生成的各文本数据与上述图像数据相互对应，生成上述图像文件。

根据上述的图像处理装置及图像处理方法，在检测出多个文字识别结果的候补的情况下，分别生成与这些各候补对应的文本数据，并使生成的各文本数据与上述图像数据对应，生成上述图像文件。由此，在使用生成的图像文件进行关键字检索时，即使是存在多个文字识别结果的候补的情况，也能够使这些各候补包含在检索对象中。从而，可抑制漏检索的发生。

而且，也可以构成为，在作为针对1个文字的文字识别结果的候补，检测出多个文字的情况下，上述文字识别部分别生成与这些多个文字对应的文本数据，上述图像文件生成部使上述文字识别部生成的各文本数据与上述图像数据相互对应，生成上述图像文件。

根据上述结构，在作为针对1个文字的文字识别结果的候补而检测出了多个文字的情况下，使与这些多个文字对应的各文本数据分别与上述图像数据对应，生成上述图像文件。由此，在使用生成的图像文件进行关键字检索时，能够对存在多个文字识别结果的候补的文字，包含这些各候补在内进行检索。从而，可抑制漏检索的发生。

并且，也可以构成为，具有根据上述图像数据，对上述原稿中记载的单词或文章是纵书还是横书进行解析的布局解析部，上述文字识别部在上述布局解析部不能确定上述原稿中记载的单词或文章是纵书还是横书的情况下，进行对应于纵书的文字识别处理和对应于横书的文字识别处理双方，分别生成与这两方的文字识别处理的结果对应的文本数据，上述图像文件生成部使上述文字识别部生成的各文本数据与上述图像数据相互对应，生成上述图像文件。

根据上述结构，在不能确定原稿上记载的单词或文章是纵书还是横书的情况下，使对应于纵书的文字识别处理、和对应于横书的文字识别处理的双方结果所对应的文本数据，分别与图像数据对应，生成图像文件。由此，即使在不能确定原稿上记载的单词或文章是纵书还是横书的情况下，也能够在使用生成的图像文件进行关键字检索时，抑制漏检索的发生。

另外，也可以构成为，上述文字识别部根据针对上述图像数据中包含的各文字的文字识别结果、和上述布局解析部的解析结果，进行上述原稿中包含的单词的识别处理，在上述布局解析部不能确定上述原稿中记载的单词或文章是纵书还是横书的情况下，分别生成由对应于纵书的单词的识别处理检测出的单词、和由对应于横书的单词的识别处理检测出的单词双方所对应的文本数据，上述图像文件生成部使上述文字识别部生成的各文本数据与上述图像数据相互对应，生成上述图像文件。

根据上述结构，在不能确定原稿上记载的单词或文章是纵书还是横书的情况下，使由对应于纵书的文字识别处理检测出的单词、和由对应于横书的文字识别处理检测出的单词双方所对应的各文本数据，分别与图像数据对应，生成图像文件。由此，即使在不能确定原稿上记载的单词或文章是纵书还是横书的情况下，也能够在使用生成的图像文件进行关键字检索时，抑制漏检索的发生。

而且，也可以构成为，上述图像文件生成部在上述图像文件中，使上述文本数据与上述图像数据中的与该文本数据对应的文字在上述原稿上的位置相互对应。例如，上述图像文件生成部可以将上述文本数据作为透明文本，配置在上述图像数据中的与对应于该文本数据的文字在上述原稿上的位置对应的位置。

根据上述结构，能够确定与在使用生成的图像文件的关键字检索中检测出的文字对应的文字图像。

本发明的图像读取装置具有：读取原稿来取得原稿图像的图像数据的图像读取部、和上述任意一种图像处理装置。而本发明的图像发送装置具有：上述任意一种图像处理装置、和将由上述图像文件生成部生成的图像文件发送给构成为可通信连接的其他装置的通信部。另外，本发明的图像形成装置具有：上述任意一种图像处理装置、和将与图像数据对应的图像形成在记录材料上的图像形成部。

根据上述各结构，在使用生成的图像文件进行关键字检索时，能够对存在多个文字识别结果的候补的文字，包含这些各候补在内进行检索。从而，可抑制漏检索的发生。

另外，上述图像处理装置也可以由计算机实现，该情况下，通过使计算机作为上述各部动作，从而由计算机实现上述图像处理装置的图像处理程序、以及记录了该程序的计算机可读取记录介质，也属于本发明的范畴。

在具体实施方式章节中说明的具体的实施方式或实施例，只是为了明确说明本发明的技术内容的示例，不应被狭义地解释为只限于这样的具体例，在本发明的技术思想和技术方案所定义的范围内，可以进行各种变更实施。

工业上的可利用性

本发明可以应用到生成使从原稿读取而取得的图像数据、和通过对该图像数据实施文字识别处理而得到的文本数据相互对应的图像文件的图像处理装置、图像读取装置及图像发送装置。

Claims

1.一种图像处理装置，具有：文字识别部，其根据从原稿读取而取得的图像数据，对上述原稿中包含的文字进行文字识别处理；和图像文件生成部，其生成使通过文字识别处理而获得的文本数据与上述图像数据相互对应的图像文件；其特征在于，

在检测出多个文字识别结果的候补的情况下，上述文字识别部分别生成与这些各候补对应的文本数据，

上述图像文件生成部使上述文字识别部生成的各文本数据与上述图像数据相互对应，生成上述图像文件。

2.根据权利要求1所述的图像处理装置，其特征在于，

在作为针对1个文字的文字识别结果的候补，检测出多个文字的情况下，上述文字识别部分别生成与这些多个文字对应的文本数据，

3.根据权利要求1所述的图像处理装置，其特征在于，

具有根据上述图像数据，对上述原稿中记载的单词或文章是纵书还是横书进行解析的布局解析部，

在上述布局解析部不能确定上述原稿中记载的单词或文章是纵书还是横书的情况下，上述文字识别部进行与纵书对应的文字识别处理和与横书对应的文字识别处理双方，分别生成与这两方的文字识别处理的结果对应的文本数据，

4.根据权利要求3所述的图像处理装置，其特征在于，

上述文字识别部根据针对上述图像数据中包含的各文字的文字识别结果、和上述布局解析部的解析结果，对上述原稿中包含的单词进行识别处理，

在上述布局解析部不能确定上述原稿中记载的单词或文章是纵书还是横书的情况下，分别生成由与纵书对应的单词的识别处理检测出的单词、和由与横书对应的单词的识别处理检测出的单词双方所对应的文本数据，

5.根据权利要求1所述的图像处理装置，其特征在于，

上述图像文件生成部在上述图像文件中，使上述文本数据与上述图像数据中的与该文本数据对应的文字在上述原稿上的位置相互对应。

6.根据权利要求5所述的图像处理装置，其特征在于，

上述图像文件生成部将上述文本数据作为透明文本，配置在上述图像数据中的与该文本数据对应的文字在上述原稿上的位置所对应的位置。

7.一种图像读取装置，其特征在于，具有：

读取原稿来取得原稿图像的图像数据的图像读取部；和

权利要求1所述的图像处理装置。

8.一种图像发送装置，其特征在于，具有：

权利要求1所述的图像处理装置；和

将由上述图像文件生成部生成的图像文件，发送给构成为可通信连接的其他装置的通信部。

9.一种图像形成装置，其特征在于，具有：

权利要求1所述的图像处理装置；和

将与图像数据对应的图像形成在记录材料上的图像形成部。

10.一种图像处理方法，包括：文字识别步骤，根据从原稿读取而取得的图像数据，对上述原稿中包含的文字进行文字识别处理；和图像文件生成步骤，生成使通过文字识别处理而获得的文本数据与上述图像数据相互对应的图像文件；其特征在于，

当在上述文字识别步骤中检测出多个文字识别结果的候补时，分别生成与这些各候补对应的文本数据，

在上述图像文件生成步骤中，使在上述文字识别步骤中生成的各文本数据与上述图像数据相互对应，生成上述图像文件。