CN1625206A

CN1625206A - 图像处理装置及其控制方法

Info

Publication number: CN1625206A
Application number: CNA2004100950053A
Authority: CN
Inventors: 西川英一; 松久保勇志; 矢口博之; 辻博之; 加藤进一; 木虎正和; 关口贤三; 吉田广义
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2003-11-20
Filing date: 2004-11-18
Publication date: 2005-06-08
Anticipated expiration: 2024-11-18
Also published as: JP2005157450A; US20050111052A1; CN100493127C; JP3862694B2; US7508547B2; DE602004009741D1; EP1533745A1; EP1533745B1

Abstract

根据读取的原稿图像，确定与该原稿图像相对应的电子文件。在不能确定与该原稿图像相对应的电子文件时，将该原稿图像变换为矢量数据。该矢量数据变换为图像数据。之后，将原稿图像的第一图像数据和由上述第二变换单元生成的第二图像数据进行比较。于是，根据该比较结果，选择第一图像数据或矢量数据中的一个作为与原稿图像相对应的电子文件。

Description

图像处理装置及其控制方法

技术领域

本发明涉及对读取原稿所得到的原稿图像进行图像处理的图像处理装置及其控制方法。

背景技术

近年来，在环境问题呼吁中，办公场所中的无纸化急速进展。作为实现无纸化的技术，历来提议的是利用扫描仪读取存储于文件夹等之中的纸质文档，将该读取的图像，比如，变换为可移植文档格式(以下称其为PDF)等的图像文件并存储于图像存储装置进行管理的文档管理系统。

另一方面，在扩展功能的复合机中，在存储管理与纸质文档相对应的图像文件时，可以将存在该图像文件的图像存储装置内的指针信息作为纸质文档的封皮或记载信息中的附加信息进行记录。于是，再次，在通过复制该纸质文档等方式进行再利用之时，从该指针信息检出与该纸质文档相对应的原始电子文件(图像文件)的存放场所，通过直接再利用该原始电子文件，可削减整个纸质文档的保存，生成画质良好的印刷品(比如，日本特开平10-143414号公报)。

此处，在前一种的文档管理系统中，可以将纸质文档作为压缩信息量的PDF文件进行保存，但因为PDF文件本身是图像信息，所以在该PDF文件中存在的一部分对象(比如，字符块、图形块、表格块等)是不能以电子方式进行再利用的。因此，在想要对这一纸质文档中存在的对象进行再利用时，必须实施重新利用应用软件再次重新生成必需的对象或从PDF文件中将必需的对象抽出等等编辑操作。

另一方面，在后一种复合机中，比如，在同一组织内生成的纸质文档，由于通常处于可以直接访问与其相对应的原始电子文件的环境，可以很容易进行再利用，但对于来自外部的纸质文档或原始电子文件的所在不明的纸质文档就不能对应。

于是，在不能在系统内确定纸质文档的原始电子文件的场合，一般考虑将读取该纸质文档所得到的图像(图像信息)通过矢量化处理变换为矢量数据作为原始电子文件保存，无论是何种纸质文档都可以将读取的图像信息作为可以再利用的电子文件进行处理。

可是，在考虑以上述方式进行矢量化处理时，根据该处理内容的不同，由所得到的矢量数据(原始电子文件)生成的图像的内容，有时会出现由于对读取本来的纸质文档所得到的图像(图像信息)的内容的误判等的影响而差别很大的情况。

因此，在对与纸质文档相对应的原始电子文件进行再利用时，根据其目的的不同，有时不能执行用户打算进行的处理。

比如，在对由字符块构成的纸质文档的图像信息进行矢量化处理生成矢量数据时，对该字符块进行字符识别并予以编码。可是，在系统侧，在与该字符块相对应的字体不存在时，有时要使用不同的字体进行编码(矢量化)，此时，就不能实现用户所希望的字体的字符矢量化。

发明内容

本发明系为解决上述问题而完成的发明，其目的在于提供一种可以实现将用户所希望的内容的电子文件作为与读取原稿图像相对应的电子文件而加以利用的图像处理装置及其控制方法。

为达到上述目的的本发明的图像处理装置的构成如下。即，

是一种对读取原稿所得到的原稿图像进行图像处理的图像处理装置，其构成包括：

读取原稿的读取单元；

将利用上述读取单元读取的原稿图像变换为矢量数据的第一变换单元；

将上述矢量数据变换为图像数据的第二变换单元；

将上述原稿图像的第一图像数据与利用上述第二变换单元生成的第二图像数据进行比较的比较单元；以及

根据上述比较单元的比较结果，选择上述第一图像数据或第二图像数据中的一个作为与上述原稿图像相对应的电子文件的选择单元。

另外，优选是还包括根据由上述读取单元读取的原稿图像，确定与上述原稿图像相对应的电子文件的确定单元；并且

上述第一变换单元在利用上述确定单元不能确定与上述原稿图像相对应的电子文件时，将上述原稿图像变换为矢量数据。

另外，优选是上述选择单元，在上述比较单元的比较结果为在上述第一图像数据和上述第二图像数据之间存在不同部分时，将上述第一图像数据作为与原稿图像相对应的电子文件。

另外，优选是上述选择单元，在上述比较单元的比较结果为在上述第一图像数据和上述第二图像数据之间存在不同部分的比例小于等于阈值时，选择上述第二图像数据作为与上述原稿图像相对应的电子文件。

另外，优选是其构成还包括：

在由显示部提示上述第一图像数据和上述第二图像数据作为上述比较单元的比较结果的提示单元；

指定在上述显示部上提示的上述第一图像数据和上述第二图像数据中的一个的指定单元；并且

上述选择单元，将由上述指定单元指定的上述第一图像数据或上述第二图像数据作为与上述原稿图像相对应的电子文件。

另外，优选是在由上述确定单元确定的电子文件是图像数据时，上述第一变换单元将该图像数据变换为矢量数据。

另外，优选是上述确定单元具有识别附加于原稿图像用来表示与该原稿图像相对应的电子文件的存放目的地的指针信息的识别单元；

根据由上述识别单元识别的指针信息确定与上述原稿图像相对应的电子文件。

另外，优选是其构成还包括：

在上述确定单元不能确定与上述原稿图像相对应的电子文件并且上述识别单元不能识别上述指针信息时，从存储装置检索与上述原稿图像相对应的电子文件的检索单元；

将由上述检索单元检索到的电子文件作为与上述原稿图像相对应的电子文件候选输出的输出单元；以及

从上述输出单元输出的电子文件候选中选择所要求的电子文件的选择单元；并且

在由上述选择单元所选择的电子文件是图像数据时，上述第一变换单元将该图像数据变换为矢量数据。

另外，优选是其构成还包括：

将上述原稿图像按照每个属性分割为多个块的分割单元，并且

上述第一变换单元将由上述分割单元分割上述原稿图像产生的各块中的每一个都变换为矢量数据。

另外，优选是上述第二变换单元将由上述第一变换单元对上述各块中的每一个生成的矢量数据都对该各块变换为图像数据。

另外，优选是上述比较单元将由上述分割单元分割上述原稿图像产生的各块中的每一个的第一图像数据和由上述第二变换单元生成的对上述各块有区别的第二图像数据进行比较。

另外，优选是其构成还包括将上述矢量数据变换为可由能够在终端上工作的文档生成应用程序处理的规定形式的数据的变换单元。

另外，优选是其构成还包括：

将由上述选择单元所选择的上述第一图像数据或上述矢量数据作为与上述原稿图像相对应的电子文件存放于规定的存储装置的存放单元；以及

生成表示上述电子文件的存放地址的指针信息并附加到该电子文件的附加单元。

另外，优选是其构成还包括：

将上述原稿图像按照每个属性分割为多个块的分割单元，以及

在不能由上述确定单元确定与上述原稿图像相对应的电子文件时，从存储装置检索与由上述分割单元分割的各块相对应的矢量数据的检索单元；并且

上述第一变换单元，利用由上述检索单元所检索的矢量数据，将上述图像数据变换为矢量数据。

另外，优选是其构成还包括：

对由上述分割单元分割的每个块执行上述第一变换单元、上述第二变换单元、上述比较单元及上述选择单元的控制单元。

另外，优选是其构成还包括：

根据由上述分割单元分割的块的种类，执行上述第一变换单元、上述第二变换单元、上述比较单元及上述选择单元的控制单元。

为达到上述目的的本发明的图像处理装置的控制方法的构成如下。即，

是一种对读取原稿所得到的原稿图像进行图像处理的图像处理装置的控制方法，其构成包括：

读取原稿的读取步骤；

将利用上述读取单元读取的原稿图像变换为矢量数据的第一变换步骤；

将上述矢量数据变换为图像数据的第二变换步骤；

将上述原稿图像的第一图像数据与利用上述第二变换单元生成的第二图像数据进行比较的比较步骤；以及

根据上述比较步骤的比较结果，选择上述第一图像数据或上述矢量数据中的某一个作为与上述原稿图像相对应的电子文件的选择步骤。

从下面结合附图的描述，很容易了解本发明的上述特点和优点，附图中同样的标号在全部附图中表示同一或类似的部件。

附图说明

包含于本说明书并构成其一部分的附图示出本发明的实施方式并与描述一起用来说明本发明的原理。

图1为示出本发明的实施方式1的图像处理系统的构成的框图。

图2为示出本发明的实施方式1的MFP的详细结构的框图。

图3为示出由本发明的实施方式1的图像处理系统执行的整个处理的概要的流程图。

图4A为用来说明本发明的实施方式1的块选择处理的概念的示图。

图4B为用来说明本发明的实施方式1的块选择处理的概念的示图。

图5为示出本发明的实施方式1块信息的一例的示图。

图6为示出本发明的实施方式1步骤S122的处理的细节的流程图。

图7为示出本发明的实施方式的原稿图像的一例的示图。

图8为示出本发明的实施方式1的原始电子文件的检索处理的流程图。

图9为示出本发明的实施方式1的原始电子文件的检索处理的应用例流程图。

图10为示出本发明的实施方式1步骤S126的处理的细节的流程图。

图11为用来说明本发明的实施方式1的矢量化处理的示图。

图12为用来说明本发明的实施方式1的矢量化处理的示图。

图13为用来说明本发明的实施方式1的矢量数据的成组化处理的流程图。

图14为示出本发明的实施方式1步骤S701的处理的细节的流程图。

图15为示出本发明的实施方式1的DAOF的数据结构的示图。

图16为示出本发明的实施方式1步骤S130的处理的细节的流程图。

图17为示出本发明的实施方式1步骤S8002的处理的细节的流程图。

图18A为本发明的实施方式1的文档结构树的说明图。

图18B为本发明的实施方式1的文档结构树的说明图。

图19为示出本发明的实施方式1步骤S135的处理的细节的流程图。

图20为用来说明本发明的实施方式1的光栅化/比较/选择处理的概念的示图。

图21为用来说明本发明的实施方式2的矢量化处理及光栅化/比较/选择处理的概念的示图。

图22为用来说明本发明的实施方式3的矢量化处理及光栅化/比较/选择处理的概念的示图。

具体实施方式

下面参照附图对本发明的优选实施方式予以详细描述。

<实施方式1>

此图像处理系统，利用因特网等的网络104将办公场所10及办公场所20相连接的环境而实现。

在办公场所10内构筑的LAN107上连接有实现多种功能(复制功能、印刷功能、发送功能等)的复合机的MFP(多功能外围设备)100、控制MFP100的管理PC101、利用MFP100的客户机PC102、文档管理服务器106及其数据库105以及代理服务器103。

在办公场所20内构筑的LAN108上连接有代理服务器103、文档管理服务器106及其数据库105。

办公场所10内的LAN107及办公场所20内的LAN108，经过各自的代理服务器103与网络104相连接。

MFP100，特别是，具有以电子方式读取作为原稿的纸质文档的图像读取部和对从图像读取部得到的图像信号执行图像处理装置的图像处理部，此图像信号可经过LAN109发送到管理PC101。

管理PC101是通常的PC(个人计算机)，在内部具有图像存储部、图像处理部、显示部、输入部等各种结构部件，该结构部件的一部分与MFP100构成一体。

另外，图1的结构是一例，但也可以没有具有文档管理服务器106的办公场所20，或存在更多的也可以，或办公场所10和办公场所20连接在同一LAN上也可以。

另外，网络104，在典型情况下是因特网或LAN或WAN或电话线路、专用数字线路、ATM或帧中继线路、通信卫星线路、有线电视线路、数据广播用无线线路等任何一个，或利用这些线路的组合实现的所谓的通信网络，只要可以进行数据收发即可。

另外，管理PC101、客户机PC102、文档管理服务器106等各种终端分别具有装载于通用计算机上的标准结构部件(如CPU、RAM、ROM、硬盘、外部存储装置、网络接口、显示器、键盘、鼠标等)。

下面利用图2对MFP100的详细结构予以说明。

图2为示出本发明的实施方式1的MFP的详细结构的框图。

在图2中，包含自动文档送纸器(ADF)的图像读取部110，对扎状或一张的原稿图像以光源(未图示)进行照射，利用透镜使原稿反射像在固体摄像元件上成像，将获得的发自固体摄像元件的光栅状的图像读取信号作为规定密度(600DPI等)的光栅图像。

另外，MFP100，具有由印刷部112将与图像读取信号相对应的图像印刷到记录媒体上的复制功能，并且在对原稿图像进行一次复制时，就由数据处理部115对此图像读取信号进行图像处理而生成记录信号，由印刷部112将其印刷到记录媒体上。另一方面，在对原稿图像进行多次复制时，在由存储部111临时存储保持一页大小的记录信号之后，由印刷部112将其顺序输出印刷到记录媒体上。

另外，经过网络I/F114的发送功能，是将从图像读取部110得到的光栅图像变换为TIFF或JPEG等压缩图像文件形式或PDF等的矢量数据文件形式的图像文件，从网络I/F114输出。输出的图像文件，经LAN107发送到文档管理服务器106或客户机PC102，再经过网络104传送到办公场所20内的另外的文档管理服务器106。

另外，印刷部112的印刷功能，比如，是使客户机PC102输出的印刷数据经过网络I/F114为数据处理部115所接收，数据处理部115，将该印刷数据变换为可在印刷部112上印刷的光栅数据之后，由印刷部112在印刷媒体上形成图像。

操作人员对MFP100的指示由装设于MFP100上的键操作部和由连接到管理PC101的键盘及鼠标组成的输入部113进行，这一系列的动作由数据处理部115内的控制部(未图示)控制。另外，操作输入的状态形式及处理中的图像数据显示，由显示部116进行。

存储部111，也由管理PC101控制，MFP100和管理PC101的数据的收发及控制，经网络I/F117及LAN109进行。

这些MFP100和管理PC101的数据的收发及控制，在构成LAN109的场合，经网络I/F117将MFP100和管理PC101直连而实现，而在不构成LAN109的场合，经连接到网络I/F114的LAN107而实现。

[处理概要]

下面利用图3对利用实施方式1的图像处理系统执行的整个处理的概要予以说明。

首先，在步骤S120，由MFP100的图像读取部110，以光栅方式扫描并读取原稿，比如，得到600DPI-8位的图像信号。由数据处理部115对此图像信号实施前处理，并作为一页大小的图像数据保存到存储部111。

之后，在步骤S121，在数据处理部115中进行块选择处理。此处理通过管理PC101的控制来执行。

具体言之，管理PC101的CPU，对存放于存储部111的作为处理对象的图像信号，首先进行区域分割而成为文字/线画部分和半色调图像部分，再将文字/线画部分以段落作为块分割为各个块，或分割为以线构成的各个表格、图形。

另一方面，将半色调图像部分分割为矩形的分离块的图像部分、背景部分等所谓各个块独立的对象(块)。

另外，细节见后述，对由此BS处理生成的各块，生成作为有关各个块的信息的块信息。

之后，在步骤S122，检测与作为原稿图像中的附加信息而记录的二维条形码或URL(或URI(通用资源标识符))相符的对象(块)。在附加信息是URL图像时，则利用OCR对该URL图像进行字符识别。另一方面，在附加信息二维条形码时，则利用OMR(光学标记阅读器)对该二维条形码图像进行译码。

另外，在步骤S122，利用OCR对经过步骤S121中的BS处理而得到的字符块进行字符识别。

之后，在步骤S123，根据步骤S122的处理结果，检测示出存放读取原稿图像的原始电子文件的存放地址的指针信息。

之后，在步骤S124，判定是否检测到指针信息。在未检测到指针信息时(在步骤S124中的“否”)，就进入步骤S126。另一方面，在检测到指针信息时(在步骤S124中的“是”)，就进入步骤S125，判定在指针信息示出的存放地址是否存在原始电子文件。

另外，原始电子文件，比如，是存放于图1的客户机PC102内的硬盘、数据库105或MFP100本身具有的存储部111之中的任何一个之内，就可以按照在步骤S123中检测到的指针信息对这些存储装置进行检索。

在步骤S125中未检索到原始电子文件时(在步骤S125中的“否”)，就进入到步骤S126。另一方面，在步骤S125中检索到原始电子文件时(在步骤S125中的“是”)，就进入到步骤S133。

另外，在步骤S125中，即使是检索到原始电子文件，在该原始电子文件是以PDF或TIFF为代表的图像数据时，则进入步骤S126。反之，在该原始电子文件是以前由本处理生成的矢量数据时，则进入步骤S133。

在步骤S126，根据在步骤S120中输入的读取原稿图像，执行检索与其类似的电子文件的文件检索处理。

在此文件检索处理中，从在步骤S122中对各字符块进行的OCR结果中抽取单词，执行对具有该单词的电子文件进行检索的全文检索。或者，执行对具有由图像信号中的各块的排列和各块的属性(图像、字符等)确定的布局(或类似布局)的电子文件进行检索的布局检索。

之后，在步骤S127，将作为文件检索处理所得到的检索结果电子文件(组)作为与读取原稿图像相对应的电子文件(或其索引图像(代表图像))的候选显示于显示部116，从该候选接受作为处理对象的电子文件的选择。

另外，在候选为一个时，自动地从步骤S128进入到步骤S133。

在步骤S128，判定是否已经从显示于显示部116上的电子文件的候选中选择了电子文件。在已经选择电子文件时(步骤S128中的“是”)，就进入到步骤S133。另一方面，在未选择电子文件时(步骤S128中的“否”)，则进入到步骤S129。

另外，在步骤S128中，即使是选择了电子文件，在该电子文件是PDF或TIFF为代表的图像信息时，就进入到步骤S129。

在步骤S129，执行将图像数据(在步骤S120中输入的读取原稿图像(图像数据)或在步骤S127中选择的图像数据的电子文件)变换为矢量数据的矢量化处理。

在此矢量化处理中，首先，对在步骤S122中结果OCR处理的字符块再识别字符的大小、字形、字体(Font)，变换为与扫描原稿所得到的字符在外观上忠实的字体数据。另一方面，对于由线构成的表格、图形块则进行轮廓化。另外，对于图像块，则作为图像数据变换为单个的JPEG文件。

对这些各种块的矢量化处理，是在各块每一个的块信息基础上进行的，并且保存各块的布局信息。

在步骤S137，执行光栅化/比较/选择处理。这是将由矢量化处理所得到的矢量数据经光栅化而得到的光栅图像的内容和读取原稿图像进行比较并根据该比较内容，作为与读取原稿图像相对应的电子文件，选择读取原稿图像本身的图像信息或相对应的矢量数据中的一个，比如，保存到存储部111。另外，关于这一处理的细节见后述。

另外，在此处理中，最终成为保存对象的图像信息或相对应的矢量数据的选择，既可以由系统根据比较内容自动选择，也可以在显示部116上提示两者的图像而由用户进行选择。

由此，在设想对与读取原稿图像相对应的电子文件进行再利用时，就可以以用户希望的形态(图像信息/矢量数据)的电子文件进行保存管理。

之后，在步骤S130，执行应用数据变换处理将在步骤S129中得到的矢量数据变换为可由文档生成应用程序处理的规定形式(比如，rtf形式)的应用数据。于是，在步骤S131，将生成的该应用数据作为与在步骤S120中输入的图像数据相对应的电子文件，存放到存储部111或文档管理服务器106等。

之后，在步骤S132，为了以下在进行同样处理之时，可以直接从读取原稿图像作为与其相对应的电子文件进行检索，执行生成电子文件的检索用的索引信息的索引生成处理。于是，将所生成的索引信息，比如，添加到由存储部111管理的检索用索引文件。

在步骤S133，将在S125中检索出的原始电子文件的存放地址、或在步骤S128中选择的电子文件的存放地址或在步骤S131中存放的电子文件的存放地址通知显示部116。

在步骤S134，判定来自输入部113的操作指示是否是读取原稿图像的登记指示。在不是登记指示时(在步骤S134中的“否”)，就进入到步骤S136。另一方面，在是登记指示时(在步骤S134中的“是”)，就进入到步骤S135。

还有，步骤S134的处理，是为了使该图像处理系统对不存在指针信息的读取原稿图像进行再利用，判定有无用户意欲将该读取原稿图像的图像信息/矢量数据/在步骤S128中所选择的电子文件作为原始电子文件进行登记操作的执行指示。

因此，在存在指针信息的读取原稿图像的场合，通常设想不执行这一登记操作。但是，因为即使是存在指针信息并且与读取原稿图像相对应的原始电子文件已经存在时，根据用途及目的，也存在要重新将此读取原稿图像进行登记的场合，所以此登记操作并不一定是对不存在指针信息的读取原稿图像执行。

另外，在指示不进行登记操作而进行读取原稿图像的复制操作(印刷装置)时，也可以在对原始电子文件进行登记的同时，将该原始电子文件作为对读取原稿图像的印刷品进行复制(印刷)。

在步骤S135，执行生成对登记对象的读取原稿图像的指针信息并作为图像数据附加到与该读取原稿图像相对应的原始电子文件的指针信息附加处理。于是，将附加有此指针信息的原始电子文件存放到，比如，图1的客户机PC102内的硬盘、数据库105、或MFP100本身具有的存储部111之中的每一个内。另外，也可以在存放的同时，由印刷部112将该原始电子文件进行印刷。

在步骤S136，在显示部116上提示为了对与读取原稿图像相对应的原始电子文件执行各种处理(编辑/贮存/传送(发送FAX、发送电子信函、发送文件)/印刷)的操作画面，并且可以通过该操作画面执行对原始电子文件的各种处理。

此处，作为各种处理，比如，在印刷(复制)的场合，在对各对象实施最优色处理、空间频率校正等图像处理之后，由印刷部112进行印刷。另外，在贮存时，存储保持于存储部111。另外，在传送(文件发送)时，作为通用的形式，比如，变换为RTF(多平台文本格式)形式，或变换为SVG形式，变换为可由发送目的的地址再利用的文件形式，经网络I/F114向文件发送目的的地址(比如，客户机PC102)进行发送。

这样，在本图像处理系统中，因为通常将矢量数据作为与原稿图像相对应的电子文件进行管理，可以执行利用该矢量数据的各种处理，所以可以削减作为处理对象的数据的信息量，并且提高贮存效率，缩短传送时间，并且在输出(显示/印刷)时可以输出高品质的图像。

[各处理的详细内容]

下面对各处理的细节予以说明。

[块选择处理]

首先，对步骤121的BS处理的细节予以说明。

所谓BS处理，比如，是将图4A的光栅图像，如图4B所示，作为有意义的各个块进行识别，判定该块的各个属性(文字(TEXT)/图片(PICTURE)/照相(PHOTO)/线(LINE)/表格(TABLE)等)，分割为具有不同属性的块的处理。

下面对BS处理的实施方式进行说明。

首先，将输入图像二值化成为黑白图像，进行轮廓线追踪抽取由黑像素轮廓围成的像素的块。对于面积大的黑像素的块，也对位于内部的白像素进行轮廓线追踪而抽取白像素的块，并且再从大于等于一定面积的白像素的块的内部循环地抽取黑像素的块。

将这样得到的黑像素的块以大小和形状进行分类，分类为具有不同属性的块。比如，将纵横比接近1，大小为一定范围的块作为与字符相当的像素块，将更接近的字符排列整齐可以成组的部分作为字符块，将扁平的像素块作为线块，将大于等于一定大小并且是矩形的白像素块排列整齐的内包黑像素块占据的范围作为表格块，将不定形的像素块散在的区域作为照片块，其以外的任意形状的像素块作为图片块。

于是，在BS处理中，发行确定各块的块ID，将各块的属性(图像、字符等)、大小及原始文档内的位置(坐标)和各块相关联地存储到存储部111作为块信息。另外，这些块信息，将在以下详细说明的步骤S129的矢量化处理及步骤S132的索引生成处理中予以利用。

下面利用图5对块信息的一例予以说明。

图5为示出本发明的实施方式1块信息的一例的示图。

如图5所示，块信息是由表示各块的属性的(1：文字、2：图片、3：表格、4：线、5：照片)块属性；块的位置坐标(X、Y)；块的宽度W及高度H；块的OCR信息(文字数据)有无构成的。

其中，所谓块的位置坐标(X、Y)，比如，是以原稿图像的左上角作为原点(0，0)时的位置坐标。另外，宽度W及高度H，比如，以像素数表示。另外，在此块信息之外，在BS处理中，还生成表示在原稿图像(输入文件)中存在的块数N的文件信息。在图5的示例的场合，输入文件信息N＝6。

[OCR/OMR处理(指针信息检测处理)]

下面利用图6对图3的步骤S122的处理予以详细说明。

另外，在图6中，比如，对附加到如图7所示的原稿图像310中的二维条形码(比如，QR编码符号)311进行译码，输出数据字符串的处理予以说明。

首先，在步骤S300，由CPU(未图示)对表示存放于数据处理部115内的页存储器中的原稿图像310的图像进行扫描，根据上述的BS处理的处理结果，检测规定的二维条形码符号311(块)的位置。

特别是，在实施方式1的场合，作为二维条形码符号311的QR码的位置检测模式，由配置于二维条形码符号311的四个角部内的三个角部的同样的位置检测模式构成。因此，在实施方式1中，通过检测此位置检测模式，检测出二维条形码符号311的位置。

之后，在步骤S301，将与位置检测模式邻接的形式信息复原，取得应用于符号的纠错级及屏蔽模式。

之后，在步骤S302，决定确定二维条形码符号311的型号。其后，在步骤S303，使用由形式信息取得的屏蔽模式，通过对编码区域位模式进行XOR运算解除屏蔽处理。

之后，在步骤S304，按照与模型相对应的配置规则，读取符号字符，复原二维条形码符号311的数据码字及纠错码字。

之后，在步骤S305，在复原的纠错码字方面，判定有无错误。在没有错误时(在步骤S305中的“否”)，就进入到步骤S307，而在判定有错误时(在步骤S305中的“是”)，就进入到步骤S306进行纠错。

在步骤S307，由进行了纠错的数据，根据模式指示器及字符数指示器，将数据码字分割为段。

最后，在步骤S308，根据使用模式，将数据字符译码，并将该译码结果输出。

另外，组合到二维条形码内的信息，表示对应的电子文件的地址信息(指针信息)。此处所谓的地址信息表示的是由服务器名和目录、文件名组成的电子文件的存放地址的全称路径信息。

另外，在实施方式1中，是对指针信息作为二维条形码附加的原稿图像310的示例进行说明的，但指针信息也可以作为直接字符串印刷到原稿图像310上。此时，按照规定的规则的字符块在前面的BS处理中检测，通过对显示指针信息的字符图像的各字符进行文字识别，可以直接得到原始电子文件的地址信息。

另外，也可以针对图7的原稿图像310的字符块312或字符块313，对邻接的字符和字符的字符间隔认识的困难程度加以调制，通过在此字符间隔中嵌入信息而将指针信息嵌入原稿图像310中。此时，通过在进行后述的字符识别处理之际检测各字符的字符间隔，可以获得指针信息。此外，在自然画314中，也可以附加指针信息作为电子水印信息。

[检索处理]

下面利用图8的流程图对图3的步骤S125中的利用指针信息进行原始电子文件的检索处理予以说明。

首先，在步骤S400，MFP100，根据包含于指针信息中的地址信息，确定成为电子文件的存放地址的文件服务器。

此处，所谓的文件服务器指的是客户机PC102、管理数据库105的文档管理服务器106或内置存储部111的MFP100本身。

之后，在步骤S401，MFP100，对确定的文件服务器传送地址信息。

在步骤S402，文件服务器，在接收到地址信息时，检索与该地址信息相对应的原始电子文件。在步骤S403，判定原始电子文件是否存在。在原始电子文件不存在时(步骤S403中的“否”)，就将这一点通知MFP100。

另一方面，在原始电子文件存在时(步骤S403中的“是”)，就将进入到步骤S408，并且在通知原始电子文件的地址的同时，将该读取原稿图像传输给MFP100。

另外，在图8的处理中，在意欲更加提高安全性时，比如，如图9所示，也可以对要求原始电子文件的用户进行鉴别。就是说，在作为处理对象的原始电子文件之中，有限制第三者再利用的，在图8的处理中，贮存于文件服务器中的原始电子文件全部可以是自由访问的，这是以原始电子文件整体或原始电子文件的一部分可以再利用为前提。

下面利用图9就关于对各用户访问原始电子文件有限制时的处理予以说明。

另外，在图9的处理中，对于与图8的处理的同一处理附加同一步骤S编号，其说明则省略。

在图9中，在步骤S403，在存在原始电子文件时，就在步骤S404中，判定对该原始电子文件的访问是否有限制。在对访问没有限制时(步骤S404中的“否”)，就进入到步骤S408。另一方面，在对访问有限制时(步骤S404中的“是”)，就进入到步骤S405，MFP100，在显示部116上提示口令输入画面，要求操作MFP100的用户输入口令。

在步骤S406，在MFP100输入口令时，就将其传送到文件服务器。在步骤S407，判定由文件服务器进行的基于口令的认证是否通过。在认证失败时(步骤S407中的“否”)，就进入到步骤S405。另一方面，在认证通过时(步骤S407中的“是”)，就进入到步骤S408。

另外，其构成是在步骤S407中，在认证失败时，要求再次输入口令，也可以在认证失败次数超过规定次数时，判断其为非法用户操作而将处理本身中止。

另外，在步骤S407中的认证方法，并不限定于使用口令的认证方法，比如，也可以使用指纹认证等广泛使用的生物认证、卡片认证等所有一切认证方法实现。

另外，这一认证，也可以在以下的文件检索处理中应用。

另外，在不能从文件服务器中检索原始电子文件时，就是说，对于图3的步骤S129～步骤S132的一系列处理，也可以应用同样的认证。就是说，在检测到对读取原稿图像的访问权存在限制时，就只有在该访问权的认证通过时，通过执行步骤S129以下的处理，可以限制可由图像处理系统执行区别用户和区别读取原稿图像的处理，可以进一步提高保密性。

[文件检索处理]

下面利用图5及图10对图3的步骤S126的处理予以详细说明。

另外，步骤S126的处理，是在步骤S124中不存在对读取原稿图像(输入文件)的指针信息，或者存在指针信息但找不到原始电子文件，或者原始电子文件是图像文件时执行。

另外，步骤S126的处理，可以利用步骤S122的处理所得到的块信息及输入信息，下面作为具体示例，利用图5所示的块信息及输入信息进行说明。另外，在图5的块信息中，各块是按照X坐标从小到大的顺序，即按照X1＜X2＜X3＜X4＜X5＜X6对块1、块2、块3、块4、块5、块6进行管理。

下面利用图10对使用这些块信息及输入文件信息，从文件服务器管理的数据库内通过布局检索处理来检索与输入文件类似的电子文件的处理予以说明。此处，是以对于由数据库管理的各电子文件赋予与图5同样的文件信息及块信息为前提。另外，布局检索处理，是通过执行顺序比较输入文件和数据库中的电子文件进行的。

首先，在步骤S510，设定用来计算后述的相似率的各种初始值。之后，在步骤S511，进行块总数的比较。此处，在假设输入文件的总块数为n，数据库中的作为比较对象的电子文件的总块数为N，误差为ΔN时，此处的比较将判定条件式N-ΔN＜n＜N+ΔN是否满足。

在步骤S511中，在不满足条件式时(在步骤S511中的“否”)，就进入到步骤S526，将作为处理对象的电子文件设定为下一个电子文件，返回到步骤S510。另一方面，在满足条件式时(在步骤S511中的“是”)，通过步骤S512以下的处理，根据输入文件和作为比较对象的电子文件内的块信息执行比较。

首先，在步骤S512，根据块信息，比较输入文件和作为比较对象的电子文件各个作为处理对象的块的块属性。在块属性不一致时，就进入到步骤S521，在作为比较对象的电子文件的总块数N≥输入文件的块数n时，作为作为处理对象的块，设定为输入文件的下一个块。另一方面，在作为比较对象的电子文件的总块数N＜输入文件的块数n时，作为作为处理对象的块，设定为作为比较对象的电子文件的下一个块。

另一方面，在步骤S512中，在块属性一致时，就进入到步骤S513，计算出属性相似率，将该值更新。

在步骤S514，根据块信息，对输入文件和作为比较对象的电子文件的各自的作为处理对象的块的大小(宽度及高度)进行比较。此处，在设定输入文件中的作为处理对象的宽度为w，高度为h，作为比较对象的电子文件中的作为处理对象的块的宽度为W，其误差为ΔW，高度为H，其误差为ΔH时，此处的比较可判定条件式W-ΔW＜w＜W+ΔW及H-ΔH＜h＜H+ΔH是否满足。

另外，在此条件式之外，也可进行块的位置(X，Y)的比较。

在步骤S514中，在不满足条件式时(步骤S514中的“否”)，就进入到步骤S521。另一方面，在满足条件式时(步骤S514中的“是”)，就进入到步骤S515，计算出大小相似率，将该值更新。

在步骤S516，根据块信息，判定有无输入文件和作为比较对象的电子文件的各自的作为处理对象的块的OCR信息。在不存在OCR信息时(步骤S516中的“否”)，就进入到步骤S521。另一方面，在存在OCR信息时(步骤S516中的“是”)，就进入到步骤S517，比较OCR信息。

在步骤S518，计算出OCR相似率，将该值更新。在步骤S519，判定对输入文件中的全部块的比较处理是否结束。在比较处理未结束时(步骤S519中的“否”)，就进入到步骤S520，在作为比较对象的电子文件的总块数N≤输入文件的块数n时，作为作为处理对象的块，设定为输入文件的下一个块。另一方面，在作为比较对象的电子文件的总块数N＞输入文件的块数n时，作为作为处理对象的块，设定为作为比较对象的电子文件的下一个块。

另一方面，在步骤S519中，比较处理结束时(步骤S519中的“是”)，就进入到步骤S522。

在步骤S522中，根据在步骤S513、步骤S515、步骤S518中计算出的各种相似率，计算出总和相似率。

另外，关于步骤S513、步骤S515、步骤S518的各种相似率的计算方法，因为可以利用现有公知的技术算出，所以此处将该计算方法的细节予以省略。

在步骤S523，判定总和相似率是否大于规定阈值Th。在总和相似率不到规定阈值Th时(步骤S523中的“否”)，就进入到步骤S526。另一方面，在总和相似率大于规定阈值Th时(步骤S523中的“是”)，就进入到步骤S524，将该电子文件作为输入文件的相似候选进行保存。

之后，在步骤S525，判定对数据库中的全部电子文件的比较处理是否结束。在比较处理未结束时(步骤S525中的“否”)，就进入到步骤S526。另一方面，在比较处理结束时(步骤S525中的“是”)，就结束处理。

通过以上的处理，在存在总和相似率大于规定阈值Th的电子文件时，就确定该电子文件是与输入文件相似的电子文件候选。于是，通过将此电子文件候选在图3的步骤S127中输出，用户可以选择所希望的电子文件。

[矢量化处理]

下面对图3的步骤S129的矢量化处理的细节予以说明。

在矢量化处理中，对于字符块，首先，进行各字符的字符识别处理。

在此字符识别处理中，对于从字符块以字符为单位切出的字符图像，利用模式匹配的方法进行字符识别，取得对应字符编码。特别是，此字符识别处理，是将从字符图像所得到的特征变换为数十维的数值列的观测特征矢量和预先对每个字符类型求出的词典特征矢量进行比较并将距离最近的字符类型作为识别结果。

特征矢量的抽取有多种公知的方法，比如，有一种方法的特征是将字符分割为网格状，将各网格块内的字符线按照方向区分作为线素进行计数的网格数维矢量。

于是，在字符块进行字符识别处理时，首先，对该字符块进行横写/竖写判定，在各个相对应的方向上切出字符串，之后，从字符串切出字符而取得字符图像。

横写/竖写的判定，是在该字符块内取像素值的水平/垂直的射影，并且在水平射影的差异大时判断为横写，而在垂直射影的差异大时判定为竖写。分解为字符串及字符，在横写的字符块的场合，是利用其水平方向的射影将行进行切出，再对求出的行从垂直方向的射影切出字符。另一方面，对于竖写的字符块将水平和垂直倒过来即可。

另外，利用这种字符识别处理可以检测字符的大小。

此外，通过对在字符识别处理中使用的字符类型数多少的词典特征矢量在字符形状种类，即字体种类方面准备多种，在匹配时通过与字符编码一起输出字体种类，可进行字符的字体识别。

利用通过以上的字符识别处理得到的字符编码及字体信息，利用各个预先准备的轮廓数据，可将字符部分的信息变换为矢量数据。另外，在原稿图像为彩色图像时，从该彩色图像抽取各字符的颜色与矢量数据一起进行记录。

通过以上的处理，就可以将属于字符块的图像信息变换为在形状、大小、颜色上大致忠实的矢量数据。

之后，对于字符块以外的图片及或线、表格块，将从该块中抽取的像素块的轮廓变换为矢量数据。

具体言之，在将构成轮廓的像素的点序列(点列)看作是角的点进行划分而对各区间以部分直线或曲线近似。所谓的角是曲率极大的点，曲率极大的点，如图11所示，可以作为在相对任意点Pi左右k个分离的点Pi-k、Pi+k之间引出一条弦时，此弦和PI的距离为极大的点而求出。

另外，以Pi-k、Pi+k之间的弦的长度/弧长为R，可以将R值小于等于阈值的点看作是角。由角分割后的各区间，是直线时可利用对点列的最小二乘法等计算式，是曲线时可利用三维样条函数等函数进行矢量化。

另外，在对象具有内轮廓时，利用在BS处理中抽取的白像素轮廓点，同样以部分直线或曲线进行近似。

如上所述，在采用轮廓区分线近似时，可以将任意形状的图形的轮廓矢量化。另外，在原稿图像为彩色图像时，也可从该彩色图像抽取图形颜色与矢量化数据一起记录。

另外，如图12所示，在某一区间中外轮廓和内轮廓或别的外轮廓接近时，两个轮廓线可合二而一而表现为粗线。

具体言之，从某一轮廓的各点Pi引一根距离最短的线到另一轮廓上的点Qi时，各距离PQi平均小于等于一定长度时，给定的区间以PQi中点为点列，以直线或曲线近似，其粗度为PQi的平均值。作为线和线的集合体的表格线，作为具有这种粗度的线的集合体可以效率更高地以矢量表示。

另外，前面说明的是利用对字符块字符识别处理进行矢量化，并将该字符识别处理的结果作为词典上的距离最近的字符的识别结果使用，在此距离大于等于规定值时，不一定与本来的字符一致，常常认错形状类似的字符。

因此，在本发明中，对于这种字符块，进行与一般线画同样的处理，将该字符块轮廓化。就是说，对于以线移动字符识别处理会引起误认的字符不矢量化为错误的字符，而是以忠实的轮廓化的方法矢量化为可视图像数据。

另外，对于照片块，作为图像数据保持原样不变，不执行矢量化。

之后，利用图13对于将经过矢量化处理所得到的矢量数据对每个图像块实行成组化的成组处理予以说明。

特别是，在图13中，对于将矢量数据对每个图像块进行的成组化处理进行说明。

首先，在步骤S700，算出各矢量数据的始点和终点。之后，在步骤S701，利用各矢量数据的始点、终点信息检测图形元素。

此处，所谓的图形元素检测，是对由区分线构成的封闭图形进行的检测。在检测时，是应用构成封闭形状的各矢量其两端上分别连接有矢量这一原理进行检测。

之后，在步骤S702，将存在于图形元素内的其他图形元素或区分线成组化，作为一个图形对象。另外，在图形元素内不存在其他图形元素、区分线时，就将图形元素作为图形对象。

下面利用图14对图13的步骤S701的处理予以详细说明。

首先，在步骤S710，从矢量数据中将两端不连接的不要的矢量去掉，抽出封闭图形构成矢量。

之后，在步骤S711中，将封闭图形构成矢量中的始点作为开始点，按照顺时钟方向追踪矢量。于是，将这一追踪进行到返回开始点，将通过的矢量全部作为构成一个图形元素的封闭图形进行成组化。并且，将还未成组化的矢量的始点作为开始点，重复进行同样的处理。

最后，在步骤S712，检测出将在步骤S710中去掉的不要的矢量内的在步骤S711中作为封闭图形进行成组化的矢量所连接的矢量(封闭图形连接矢量)，并作为一个图形元素进行成组化。

通过以上的处理，就可以将图像块作为可以个别利用的个别图形对象进行处理。

[应用数据变换处理]

下面对图3的步骤S130的应用数据变换处理予以详细说明。

此处，图3的步骤S121的BS处理和步骤S129的矢量化处理的处理结果是变换为图15所示的中间数据形式的文件，这种数据形式称为文档分析输出格式(DAOF)。

下面利用图15对DAOF的数据结构予以说明。

图15为示出本发明的实施方式1的DAOF的数据结构的示图。

在图15中，在Header791中保持有关作为处理对象的原稿图像的信息。在布局描述数据部792中保持原稿图像中的TEXT(文字)、TITLE(标题)、CAPTION(标注)、LINEART(线画)、PICTURE(自然画)、FRAME(框格)、TABLE(表格)等的每个属性了解到的各块的属性信息及其矩形地址信息。

在字符识别描述数据部793中，保持对TEXT、TITLE、CAPTION等的TEXT块进行字符识别而得到的字符识别结果。

在表格描述部794中存储TABLE块的结构的细节。图像描述数据部795，将PICTURE及LINEART等的块的图像数据从文档图像数据中切出保持。

这种DAOF，不仅作为中间数据，也有将其本身文件化进行保存的场合，在此文件状态中，一般所谓的文档生成应用程序不能对各个对象(块)进行再利用。

下面利用图16对在实施方式1中，从此DAOF变换为可由文档生成应用程序利用的应用数据的应用数据变换处理(步骤S130)的细节予以说明。

首先，在步骤S8000，进行DAOF数据的输入。之后，在步骤S8002，生成成为应用数据的基础的文档结构树。于是，在步骤S8004中，以文档结构树为基础，使DAOF内的实数据流入而生成实际的应用数据。

下面利用图17对图16的步骤S8002的处理的细节予以说明。

图17为示出本发明的实施方式1步骤S8002的处理的细节的流程图。另外，图18为本发明的实施方式1的文档结构树的说明图。

另外，在图17的处理中，作为整体控制的基本规则，处理的流程，从微块(单一块)转移到宏块(块的集合体)。

以后，所谓的块，指的是微块和宏块全体。

首先，在步骤S8100，以块为单位，以纵向的关联性为基础进行再成组化。在开始之后立即成为以微块为单位的判定。

此处，所谓的关联性，可以定义为距离、块宽度(在横向时为高度)为大致相同的意思。另外，距离、宽度、高度等的信息参照DAOF抽出。

比如，图18A为实际的原稿图像的页结构，图18B为其文档结构树。通过步骤S8100的处理，块T3、T4、T5作为一个组V1，块T6、T7作为一个组V2首先作为同层次组生成。

在步骤S8102中，检查有无纵向的分隔块。所谓分隔块指的是，比如，物理上在DAOF中具有线属性的块。另外，作为逻辑意义，是在文档生成应用程序中明示对块进行分割的元素。此处，在检测到分隔块时，在同一层次进行再分割。

在步骤S8104中，利用纵向的组长度判定此外是否不能存在分割。具体言之，是判定纵向的组长度是否是原稿图像的页高度。在纵向的组长度是页高度时(步骤S8104中的“是”)，处理结束。另一方面，在纵向的组长度不是页高度时(步骤S8104中的“否”)，就进入到步骤S8106。

在图18A的原稿图像的场合，因为既没有分隔块，组长度也不是页高度，就进入到步骤S8106。

在步骤S8106，以块为单位，以横向的关联性为基础进行再成组化。此处也是在开始之后第一次立即成为以微块为单位的判定。

在图18A的原稿图像的场合，以块T1、T2作为组H1，以组V1、V2作为组H2作为组V1、V2的层次上一个同层次组生成。

在步骤S8108中，检查有无横向的分隔块。在图18A中，因为S1成为横向分隔块，将其登记到文档结构树，生成H1、S1、H2转移到层次。

在步骤S8110中，利用横向的组长度判定此外是否不能存在分割。具体言之，是判定横向的组长度是否是页宽度。在横向的组长度是页宽度时(步骤S8110中的“是”)，处理结束。另一方面，在横向的组长度不是页宽度时(步骤S8110中的“否”)，就返回到步骤S8102，再次在更高一个层次上执行步骤S8100以下的处理。

在图18A的场合，因为横向的组长度成为页宽度，在标准S8110中处理结束，最后，表示整个页的最上位层次的V0附加到文档结构树。

在文档结构树完成之后，根据该文档结构树，在图16的步骤S8004中，生成应用数据。

在图18A的场合，具体言之，是以以下的方式生成应用数据。

就是说，因为在横向上H1有两个块T1和T2，作为两个列输出，输出块T1的内部信息(参照DAOF，字符识别的结果的文章、图像等)，其后，改变列，输出块T2的内部信息，其后，输出S1。

之后，因为在横向上H2有两个块V1和V2，作为两个列输出，块V1以T3、T4、T5的顺序输出其内部信息，其后，改变列，输出块V2的T6、T7的内部信息。

如上所述，执行从DAOF到应用数据的变换处理。

[指针信息附加处理]

下面利用图19对图3的步骤S135的处理的细节予以说明。

另外，在图19中，比如，对作为指针信息的数据字符串以二维条形码(QR编码符号：JIS X0510)311进行编码，附加到图像中的处理予以说明。

另外，组合到二维条形码中的数据，表示对应的电子文件的地址信息，比如，由文件服务器的名字及文件名组成的路径信息所构成。或者，由对应的二维条形码内的URL(URI)及在存放对应的电子文件的数据库105内或在MFP100本身具有的存储部111内进行管理的文件ID等构成。

首先，在步骤S900，为了识别编码的种种的不同字符，对输入的数据串进行分析。另外，选择检错及纠错级，选择可以收容输入数据的最小型号。

在步骤S901，将输入数据串变换为规定的位串，按照需要附加表示数据的模式(数字、英数字、8位字节、汉字等等)的指示器及终端模式。另外，变换为规定的位代码字。

此时，为了进行纠错，在步骤S902，将代码字串与型号就纠错级相对应地分割为规定的块数，对每个块生成纠错代码字，附加到数据代码字串之后。

在步骤S903，将在步骤S902中得到的各块的数据代码字连接，将各块的纠错代码字，需要时将剩余代码字后续。

在步骤S904，在矩阵中与位置检测模式、分离模式、定时模式及定位模式等等一起配置代码字模块。

在步骤S905，选择对符号编码区域最优的屏蔽模式，对屏蔽模式利用在步骤S904中得到的模块执行通过XOR运算处理进行变换的屏蔽处理。

在步骤S906，利用在步骤S905中得到的模块生成形式信息及型号信息，完成二维编码符号。

通过以上的处理，组合了地址信息的二维条形码，比如，在从客户机PC102将对应的电子文件作为印刷数据在印刷部112中印刷时，在数据处理部115内，变换为可记录的光栅数据之后，附加到该电子文件的光栅数据上的固定地点进行印刷。此处，通过在图像读取部110中读取印刷二维条形码(指针信息)的印刷品(原稿)，可以检测到由该指针信息确定的原始电子文件的存放场所。

另外，为了同样的目的，除了将指针信息在二维条形码中表现之外，也可应用，比如，利用直接字符串附加到电子文件的方法、通过调制电子文件上的字符串，特别是，调制字符和字符的间隔嵌入信息的方法、嵌入到在电子文件的中间色调图像(索引图像)中的方法等等一般称为电子水印的方法。

[光栅化/比较/选择处理]

下面对步骤S137的光栅化/比较/选择处理予以说明。

这一处理的光栅化处理，是将利用步骤S129中的光栅化处理所得到的矢量化数据，比如，再次在存储部111中展开而变换为光栅数据。

之后，在比较处理中，在实施方式1中，如图20所示，对在步骤120中得到的读取原稿图像的图像信息(第一图像信息)和经过光栅化处理从矢量数据再变换为光栅数据的图像信息(第二图像信息)进行XOR运算，导出两者不同的部分。

之后，在选择处理中，根据比较处理的处理结果，将在步骤S120中得到的读取原稿图像的图像信息，或通过步骤S129的矢量化处理所得到的矢量数据中的任何一个，为了作为与读取原稿图像的电子文件进行登记而进行选择。

作为这一选择的方法，比如，有以下的方法。

(1)在第一及第二图像信息两者之间存在不同部分时，选择第一图像数据作为与读取原稿图像相对应的电子文件。

(2)在第一及第二图像信息两者之间的不同部分的比例小于等于阈值时，选择与第二图像信息相对应的矢量数据。

此选择，比如，可由数据处理部115自动执行。另外，作为其他的选择方法有：

(3)由显示部116提示比较处理结果(第一图像数据和第二图像数据)，根据用户的操作，选择(1)或(2)。

(4)对通过块选择处理所得到的块的每一个种类选择(1)或(2)。

另外的别的选择方法有：

(5)也是在(1)的场合，在用户指示的操作内容是图像编辑时，选择与第二图像信息相对应的矢量数据。

(6)在构成为(2)的阈值可通过用户的操作改变时，根据用户操作所设定的阈值选择(2)。

除此之外，也可以根据用途及目的，可将(1)～(6)或其以外的选择方法任意组合，决定选择第一图像信息或选择与第二图像信息相对应的矢量数据作为电子文件的选择条件。

[关于电子文件检索的应用例]

在实施方式1中，与读取原稿图像相对应的原始电子文件(电子文件)的检索，其构成为根据该读取原稿图像中的指针信息或读取原稿图像中的各对象的对象信息(属性信息、布局、OCR信息等)执行的，在更准确检索原始电子文件时，其构成也可为根据指针信息和对象信息两者执行。

就是说，假使从读取原稿图像的指针信息可以检索到原始电子文件，并且在对从读取原稿图像的指针信息检索到的原始电子文件进行基于读取原稿图像中的对象信息的检索(比如，按照布局的布局检索、利用OCR信息的全文检索等)可以获得很高符合率时，就可以将该原始电子文件确定为正式的原始电子文件。

特别是，藉助这种构成，比如，对于由于指针信息的检测精度可疑而检出多个原始电子文件候选的场合，由于通过进行基于对象信息的检索，可进一步地缩小原始电子文件候选的范围，是以可以实现更高速并且精度高的原始电子文件确定。

[矢量化处理的应用例]

在实施方式1中，其构成为在不能确定与读取原稿图像相对应的原始电子文件或电子文件时，对该读取原稿图像整个藉助矢量化处理，比如，在作为处理对象的读取原稿图像中有时该图像中的对象并非全部都是新生成的，一部分对象是从现有的其他电子文件流传过来而生成的。

比如，背景对象(壁纸)，通常是由文档生成应用程序预先生成几个模式，可从中选择使用。所以，这种背景对象，在文件服务器中的已有电子文件中存在的可能性很高，并且，作为可以再利用的矢量数据存在的可能性很高。

所以，作为图3的步骤S129的矢量化处理的另一实施方式，也可以对通过块选择处理分割为个别的对象的各对象，以该对象单位从文件服务器中检索包含作为处理对象的对象，并且在检索时，对于该对象，可以从个别检索到的电子文件以对象单位取得矢量数据。

藉助这样的构成，不需要对整个读取原稿图像实施矢量化处理，所以可以在更高速地实施矢量化处理的同时，防止由于矢量化处理引起的画质劣化。

另一方面，在利用图3的步骤检索处理检索到的电子文件是PDF文件时，有时候对于该PDF文件中的字符对象已经存在附加有经过字符识别的字符代码的文件。于是，对于这种PDF文件，在应用矢量化处理的场合，如果使用该附加文件(字符代码文件)，就可以省略作为步骤S129的处理的一部分执行的字符识别处理，可以使矢量化处理以更高的速度执行。

如上所述，根据实施方式1，通过将读取原稿图像的第一图像信息和从作为与读取原稿图像相对应的电子文件而临时生成的矢量数据所得到的第二图像信息进行比较，并且相应于该比较内容选择最终利用的数据形态的数据(图像数据或矢量数据)作为与读取原稿图像相对应的电子文件，可以防止利用与读取原稿图像的内容显著不同的电子文件。

另外，在进行矢量化处理时，通过以读取原稿图像中的对象单位检索与该对象相对应的矢量数据，在检索时用作与该对象相对应的矢量数据，可以实现高精度高速矢量化处理。

<实施方式2>

实施方式2，对在实施方式1的“矢量化的应用例”中，由对象选择处理分割的每个个别的对象进行矢量化处理及光栅化/比较/选择处理的构成予以说明。

下面利用图21对实施方式2的矢量化处理及光栅化/比较/选择处理的概念予以说明。

如图21所示，在实施方式2中，通过进行实施方式1的图3的步骤S121的块选择，比如，得到块BS1、BS2、...、BSN(N：正整数)。之后，经过图3的步骤S122～步骤S128的处理，在进行步骤S129的矢量化处理时，对块BS1、BS2、...、BSN分别执行矢量化处理而得到矢量数据VBS1、VBS2、...、VBSN。

之后，在进行图3的步骤S137的光栅化/比较/选择处理的光栅化时，对矢量数据VBS1、VBS2、...、VBSN分别执行光栅化处理而得到光栅数据RBS1、RBS2、...、RBSN。

之后，在进行图3的步骤S137的光栅化/比较/选择处理时，将块BS1、BS2、...、BSN和光栅数据RBS1、RBS2、...、RBSN分别进行比较，并根据该比较结果，选择块(图像)或矢量数据的任何一个作为最终选择的对象的电子文件。在图21中示出的是选择BS1、VBS2、...、VBSN的状态。

如上所述，根据实施方式2，在实施方式1中说明的效果之外，通过以读取原稿图像的对象单位，选择该读取原稿图像的各对象的图像信息或矢量数据作为与该读取原稿图像相对应的电子文件，可以更进一步地利用与由用户所希望的内容构成的读取原稿图像相对应的电子文件。

<实施方式3>

在实施方式2中，其构成是由对象选择处理分割的每个对象(块)进行矢量化处理及光栅化/比较/选择处理，但也可以是根据对象选择处理分割的各对象(块)的属性，进行光栅化/比较/选择处理。

下面利用图22对实施方式3的矢量化处理及光栅化/比较/选择处理的概念予以说明。

如图22所示，在实施方式3中，通过进行实施方式1的图3的步骤S121的块选择，比如，得到块BS1(TEXT属性)、BS2(PHOTO属性)、...、BSN(TABLE属性)(N：正整数)。之后，经过图3的步骤S122～步骤S128的处理，在进行步骤S129的矢量化处理时，比如，通过图像处理系统的初始设定或用户操作，在矢量化处理的对象，指定为TEXT属性的对象时，在矢量化处理中，只对TEXT属性的块BS1执行矢量化处理而得到矢量数据VBS1。

之后，在进行图3的步骤S137的光栅化/比较/选择处理的光栅化时，只对矢量数据VBS1执行光栅化处理而得到光栅数据RBS1。

之后，在进行图3的步骤S137的光栅化/比较/选择处理时，将块BS1和光栅数据RBS1进行比较，并根据该比较结果，选择块(图像)或矢量数据的任何一个作为最终选择的对象的电子文件。在图22中示出的是选择VBS1的状态。另外，不执行矢量化处理及光栅化/比较/选择处理的PHOTO属性的BS2和TABLE属性的BSN，选择原样不变的BS2和BSN。

如上所述，根据实施方式3，在实施方式1中说明的效果之外，通过对读取原稿图像的对象的属性指定是否执行矢量化处理及光栅化/比较/选择处理，只对指定的属性的对象应用矢量化处理及光栅化/比较/选择处理，可以效率更高地生成和利用与由用户所希望的内容构成的读取原稿图像相对应的电子文件。

另外，在按照对象的属性进行光栅化/比较/选择处理之际，也可以使各个属性每一个的判定基准(用来采用作为电子文件的容许阈值)不同。

另外，在进行光栅化/比较/选择处理中进行矢量化处理的数据不超过容许阈值时，也可以不仅保留图像数据，而是将进行矢量化处理的数据两者都保留。

另外，在不超过容许阈值时，也可以通过增加作为图像进行处理的对象，再次重复光栅化/比较/选择处理以使采用进行过矢量化处理的数据更容易。

另外，在进行扩大处理后进行光栅化/比较/选择处理时，由于在矢量化处理中存在错误的场合的差分变大，可以防止发生只有实施错误的矢量化处理的数据保留的缺点。

以上的处理(光栅化/比较/选择处理、及此处理及缓慢增加作为图像处理的对象的处理)既可以自动地进行，也可以通过对话方式进行。

以上，是对实施方式例进行了详细描述，而本发明可以采用作为，比如，系统、方法、程序或存储媒体等的实施方式，具体言之，既可以应用于由多个机器构成的系统，也可以应用于由一个机器构成的装置。

另外，本发明也包含通过将实现上述实施方式的功能的软件的程序(在实施方式中与图示的流程图相对应的程序)直接或远距离供给系统或装置，由该系统或装置的计算机读出该供给的程序代码并执行而达到的场合。

所以，为了利用计算机实现本发明的功能处理，安装于该计算机的程序代码本身也是实现本发明的工具。就是说，本发明也包含用来实现本发明的功能处理的计算机程序。

在此场合，只要具有程序的功能，也可以是目标代码、由解释程序执行的程序、供给OS的脚本数据等形态。

作为用来供给程序的记录媒体，比如，有软盘(注册商标)、硬盘、光盘、磁光盘、MO、CD-ROM、CD-R、CD-RW、磁带、非易失性存储卡、ROM、DVD(DVD-ROM、DVD-R)等。

除此之外，作为程序的供给方法，也可以是通过利用客户计算机的浏览器连接到因特网的主页，从该主页将本发明的计算机程序本身或经过压缩并包含自动安装功能的文件下载到硬盘等记录媒体而供给。另外，也可通过将构成本发明的程序的程序代码分割为多个文件，将各个文件从不同的主页下载而实现。就是说，用来将由计算机实现本发明的功能处理的程序文件对多个用户下载的WWW服务器也包含在本发明中。

另外，也可以通过将本发明的程序加密存放于CD-ROM等存储媒体向用户发行，对于满足规定条件的用户可使其经因特网从主页下载用于解密的密钥信息，并且利用该密钥信息可执行加密程序而安装于计算机而实现。

另外，计算机，通过执行读出的程序，除了实现上述的实施方式的功能之外，可以根据该程序的指示，由在计算机上运行的OS等进行实际处理一部分和全部，通过该处理也可以实现上述的实施方式的功能。

此外，从记录媒体读出的程序，在写入到插入到计算机中的功能扩展板及与计算机相连接的功能扩展单元中设置的存储器之后，根据该程序的指示，由设置于该功能扩展板及功能扩展单元中的CPU等进行实际的处理的一部分或全部，藉助该处理也可实现上述的实施方式的功能。

本发明并不受限于上述实施方式，并且在本发明的精神和范围的情况下可以实现各种改变和变型。因此，为了向公众通报本发明的范围，特提出下面的权利要求。

Claims

1.一种图像处理装置，是一种对读取原稿所得到的原稿图像进行图像处理的图像处理装置，

其特征在于其构成包括：

读取原稿的读取单元；

将上述矢量数据变换为图像数据的第二变换单元；

2.如权利要求1所述的图像处理装置，其特征在于其构成还包括：

根据由上述读取单元读取的原稿图像，确定与上述原稿图像相对应的电子文件的确定单元；并且

在利用上述确定单元不能确定与上述原稿图像相对应的电子文件时，上述第一变换单元将上述原稿图像变换为矢量数据。

3.如权利要求1所述的图像处理装置，其特征在于：在上述比较单元的比较结果为在上述第一图像数据和上述第二图像数据之间存在不同部分时，上述选择单元将上述第一图像数据选择作为与上述原稿图像相对应的电子文件。

4.如权利要求1所述的图像处理装置，其特征在于：在上述比较单元的比较结果为在上述第一图像数据和上述第二图像数据之间存在不同部分的比例小于等于阈值时，上述选择单元选择上述第二图像数据作为与上述原稿图像相对应的电子文件。

5.如权利要求1所述的图像处理装置，其特征在于其构成还包括：

在显示部提示上述第一图像数据和上述第二图像数据作为上述比较单元的比较结果的提示单元；

指定在上述显示部上提示的上述第一图像数据和上述第二图像数据中的某一个的指定单元；

上述选择单元将由上述指定单元指定的上述第一图像数据或上述第二图像数据作为与上述原稿图像相对应的电子文件进行选择。

6.如权利要求2所述的图像处理装置，其特征在于：在由上述确定单元确定的电子文件是图像数据时，上述第一变换单元将该图像数据变换为矢量数据。

7.如权利要求2所述的图像处理装置，其特征在于：

上述确定单元具有识别附加于原稿图像上用来表示与该原稿图像相对应的电子文件的存放目的地的指针信息的识别单元；

8.如权利要求2所述的图像处理装置，其特征在于其构成还包括：

由上述确定单元不能确定与上述原稿图像相对应的电子文件并且由上述识别单元不能识别上述指针信息时，从存储装置检索与上述原稿图像相对应的电子文件的检索单元；

将由上述检索单元检索到的电子文件作为与上述原稿图像相对应的电子文件候选进行输出的输出单元；以及

9.如权利要求1所述的图像处理装置，其特征在于其构成还包括：

10.如权利要求9所述的图像处理装置，其特征在于：上述第二变换单元将由上述第一变换单元对上述各块中的每一个生成的矢量数据都对该块变换为图像数据。

11.如权利要求10所述的图像处理装置，其特征在于：上述比较单元将由上述分割单元分割上述原稿图像产生的各块中的每一个的第一图像数据和由上述第二变换单元对其生成的第二图像数据进行比较。

12.如权利要求1所述的图像处理装置，其特征在于其构成还包括：

将上述矢量数据变换为可由能够在终端上工作的文档生成应用程序处理的规定形式的数据的变换单元。

13.如权利要求1所述的图像处理装置，其特征在于其构成还包括：

生成表示上述电子文件的存放目的地的指针信息并附加到该电子文件的附加单元。

14.如权利要求1所述的图像处理装置，其特征在于其构成还包括：

在上述确定单元不能确定与上述原稿图像相对应的电子文件时，从存储装置检索与由上述分割单元分割的各块相对应的矢量数据的检索单元；并且

15.如权利要求1所述的图像处理装置，其特征在于其构成还包括：

16.如权利要求1所述的图像处理装置，其特征在于其构成还包括：

17.一种图像处理装置的控制方法，是一种对读取原稿所得到的原稿图像进行图像处理的图像处理装置的控制方法，

其构成包括：

读取原稿的读取步骤；

将上述矢量数据变换为图像数据的第二变换步骤；