CN101944091A

CN101944091A - 图像检索装置

Info

Publication number: CN101944091A
Application number: CN2009101402129A
Authority: CN
Inventors: 李季檩; 范志刚; 吴亚栋; 乐宁
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 2009-07-07
Filing date: 2009-07-07
Publication date: 2011-01-12
Also published as: JP2011018311A

Abstract

本发明的目的在于，提供一种能够将检索处理涉及的处理速度高速化、提高文档图像数据的检索精度的图像检索装置。步骤A1中，前处理部(130)作为对被输入的图像数据的前处理实施二值化处理。步骤A2中，基于被二值化后的图像数据，特征提取部(131)提取二值化图像数据的特征量。步骤A3中，检索部(132)比较登记图像数据的特征量和二值化数据的特征量，并从登记图像数据当中检索与输入图像数据类似度高的图像数据。步骤A4中，将检索结果向显示部(14)输出。这里，特征量是将相邻接的2个单词的单词长度的比fn按照单词的排列顺序排列后的数组。

Description

图像检索装置

技术领域

本发明涉及一种从被登记的图像数据中检索特定的图像数据的图像检索装置。

背景技术

在复印机、传真装置、打印机以及兼具多个这几种功能的复合机等图像形成装置中，将被输入的原稿图像等图像数据存储于大容量的存储装置中，并具备如下功能，即只要是曾被输入过一次且被登记的图像数据，则无论在何时都能够读出并再次输出。

虽然能够再次输出的功能十分方便，然而由于如果被登记的数据量增多，则很难找到想要再次输出的数据，因此从多个图像数据当中检索出所需的图像数据的图像检索技术变得很重要。

在检索图像数据时，需要比较被登记的图像数据与被输入的图像数据并算出类似性，而在被登记的图像数据中，有文档图像数据和非文档图像数据(照片或图形、插图图像等)。

文档图像数据由文字图像构成，因此相当于对文字图像彼此之间进行比较，与非文档图像数据相比很难判断类似性。

专利文献1所记载的文档图像检索装置中，从输入部输入的文档图像数据或检索文档数据中识别标点符号，计测标点符号之间的文字数，将所计测出的文字数作为索引来登记，检索具有与所计测的检索文档数据的各标点符号之间的文字数相同的文字数的索引。

日本特开2008-152502号公报所记载的文档图像检索装置中，将标点符号之间的文字数作为索引来检索，这种索引是表示比较大的配置信息的量。即使是标点符号之间的文字数相同，由于很有可能会有文字本身不同的文档图像数据，因此在利用标点符号之间的文字数来进行判断的情况下，无法使检索精度足够高。

另外，标点符号是与文字相比更小的图像，在从被登记的文档图像数据、输入图像数据中识别标点符号时产生误认的可能性高，如果在识别标点符号的阶段产生误认，则被登记的索引就会缺乏正确性。

如果为了提高检索精度，而想要提高标点符号的识别精度，则需要提高读取的析像度，其结果，一个一个的文档图像数据的数据量增多，导致存储容量的增大、处理速度的降低。

发明内容

本发明的目的在于，提供能够使检索处理涉及的处理速度高速化、提高文档图像数据的检索精度的图像检索装置。

本发明提供一种图像检索装置，是从预先登记的文档图像数据当中检索与被输入的文档图像数据类似的文档图像数据的图像检索装置，其特征在于，具备：

特征量提取部，其检测出被输入的文档图像数据中所包含的单词并进行单词分割，按相邻接的每两个单词，算出这两个单词的单词长度的比，将对算出的单词长度的比按照单词的排列顺序进行排列的该单词长度的比的数组，作为被输入的文档图像数据的特征量来提取；

登记图像存储部，其将上述被登记的文档图像数据、和上述被登记的文档图像数据的上述特征量相关联地进行存储；

检索部，其基于上述被登记的文档图像数据的特征量、和由上述特征量提取部生成的上述被输入的文档图像数据的特征量，从上述被登记的文档图像数据当中，检索与上述被输入的文档图像数据类似的图像数据；

显示部，其基于由检索部进行的检索结果，显示上述被登记的文档图像数据当中的与上述被输入的文档图像数据类似的文档图像数据。

根据本发明，特征量提取部检测出被输入的文档图像数据中所包含的单词并进行单词分割，按相邻接的每两个单词，算出这两个单词的单词长度的比，将对算出的单词长度的比按照单词的排列顺序进行排列的单词长度的比的数组，作为被输入的文档图像数据的特征量来提取。在登记图像存储部中，将上述被登记的文档图像数据、和上述被登记的文档图像数据的上述特征量相关联地进行存储，检索部基于上述被登记的文档图像数据的特征量、和由上述特征量提取部生成的上述被输入的文档图像数据的特征量，从上述被登记的文档图像数据当中，检索出与上述被输入的文档图像数据类似的图像数据。

显示部基于由检索部进行的检索结果，显示上述被登记的文档图像数据当中的与上述被输入的文档图像数据类似的文档图像数据。

通过将相邻接的两个单词的单词长度的比作为特征量来采用，与如以往技术那样的将标点符号之间的文字数作为特征量来检索的情况相比，虽然是不同的文章但形成相同的特征量的可能性很低，因此能够提高文档图像数据的检索精度。

此外，由于即使是以比较低的析像度来读取的文档图像数据，单词长度也不会被误检测，因此能够使用低析像度的文档图像数据，还能够将检索处理涉及的处理速度高速化，削减用于存储文档图像数据的存储容量。

另外，由于即使在图像被放大、缩小的情况下，单词长度的比也不会变化，因此检索精度不会因图像的变动倍率而变化。从而，在以将一页的图像缩小为1/2或1/4，且将多页设为一个图像数据的所谓N-up图像数据作为检索的对象的检索处理中，也是有效的。

另外，本发明的特征在于，上述特征量提取部将表示构成上述单词的区域的长度的像素数作为上述单词长度，算出上述单词长度的比。

另外，根据本发明，上述特征量提取部将表示构成上述单词的区域的长度的像素数作为上述单词长度，算出上述单词长度的比。

通过采用像素数，能够容易地检测出单词长度，也能够容易地算出单词长度的比。

另外，本发明的特征在于，登记图像存储部将上述单词长度的比的数组、和上述被登记的文档图像数据中的上述单词长度的比的数组的位置信息相关联地进行存储，

上述检索部检索出所检索的文档图像数据中的与上述被输入的文档图像数据的上述单词长度的比的数组一致的部分，

上述显示部将所检测出的上述一致的部分能够与其他部分识别地进行显示。

另外，根据本发明，登记图像存储部将上述单词长度的比的数组、和上述被登记的文档图像数据中的上述单词长度的比的数组的位置信息相关联地进行存储。上述检索部检索出所检索的文档图像数据中的与上述被输入的文档图像数据的上述单词长度的比的数组一致的部分，上述显示部将所检测出的上述一致的部分能够与其他部分识别地进行显示。

这样，能够从被登记的文档图像数据当中，检索出含有特定的文章的文档图像数据，能够进行文章内容的检索。

另外，本发明提供一种图像检索装置，其从预先登记的文档图像数据当中检索出与被输入的文档图像数据类似的文档图像数据，该图像检索装置的特征在于，具备：

特征量提取部，其检测出被输入的文档图像数据中所包含的文字并进行文字分割，检测出与一个文字外切的外切矩形，算出作为构成文字的像素在上述外切矩形内所占的比例的像素密度，将对算出的像素密度按照单词的排列顺序进行排列的像素密度的数组，作为被输入的文档图像数据的特征量来提取；

检索部，其基于上述被登记的文档图像数据的特征量、和由上述特征量提取部生成的上述被输入的文档图像数据的特征量，从上述被登记的文档图像数据当中，检索出与上述被输入的文档图像数据类似的图像数据；

根据本发明，特征量提取部检测出被输入的文档图像数据中所包含的文字并进行文字分割，检测出与一个文字外切的外切矩形，算出作为构成文字的像素在上述外切矩形内所占的比例的像素密度，将对算出的像素密度按照单词的排列顺序进行排列的像素密度的数组，作为被输入的文档图像数据的特征量来提取。在登记图像存储部中，将上述被登记的文档图像数据、和上述被登记的文档图像数据的上述特征量相关联地进行存储，检索部基于上述被登记的文档图像数据的特征量、和由上述特征量提取部生成的上述被输入的文档图像数据的特征量，从上述被登记的文档图像数据当中，检索出与上述被输入的文档图像数据类似的图像数据。

通过将文字的像素密度作为特征量来采用，与如以往技术那样的将标点符号之间的文字数作为特征量来检索的情况相比，虽然是不同的文章但形成相同的特征量的可能性很低，因此能够提高文档图像数据的检索精度。

此外，即使以比较低的析像度来读取的文档图像数据，像素密度也不会被误检测，因此能够使用低析像度的文档图像数据，还能够将检索处理涉及的处理速度高速化，削减用于存储文档图像数据的存储容量。

本发明的目的、特点及优点通过下述的详细说明和附图将变得更为明确。

附图说明

图1是表示图像检索装置10的机械性构成的方框图。

图2是表示图像检索装置10的功能性构成的方框图。

图3是表示图像检索部13的功能性构成的方框图。

图4是表示由图像检索部13进行的检索处理的流程图。

图5是表示由前处理部130进行的步骤A1的前处理的流程图。

图6是表示由特征提取部131进行的步骤A2的特征提取处理的流程图。

图7是表示单词长度及相邻的两个单词长度的比的示意图。

图8是用于说明像素密度的示意图。

具体实施方式

下面，参照附图对本发明的优选实施方式进行详细说明。

图1是表示图像检索装置10的机械性构成的方框图。图像检索装置10包括：处理器4、存放用于处理器4进行实际处理的软件等的外部存储装置5。

处理器4实际上进行如下的图像检索处理，即：提取被输入的图像数据(以下称作“输入图像数据”)的特征量，与预先登记的多个图像数据(以下称作“登记图像数据”)进行对照，检索出与输入图像数据类似的登记图像数据并进行显示。处理器4中的实际处理是由存放在外部存储装置5中的软件来执行的。处理器4例如由普通的计算机主体等构成。

外部存储装置5例如能够由可进行高速访问的硬盘等构成。为了大量地保持登记图像数据，外部存储装置5也可以是使用光盘等大容量设备的构成。另外，在检索处理中在各处理步骤的阶段中所生成的临时性数据等，既可以存储在外部存储装置5中，也可以存储在内置于处理器4中的半导体存储器中。

在图像检索装置10上，连接有键盘1，并且连接有显示装置3。键盘1用于执行各种软件的指示的输入等。

显示装置3进行基于输入图像数据及登记图像数据的图像的显示、检索结果的显示等。

在图像检索装置10上，还连接有图像扫描仪2。图像扫描仪2用于读取印刷有图像的原稿、录入输入图像数据及登记图像数据。

输入图像数据及登记图像数据的取得，除了可以利用来自图像扫描仪2的输入以外，还可以利用通信I/F(接口)6而从网络上的其他装置中通过数据通信来取得。通信I/F6可以由用于与LAN(Local AreaNetwork)连接的LAN卡、或用于与公用交换电话网连接而进行数据通信的调制解调器卡等来实现。

图2是表示图像检索装置10的功能性构成的方框图。

图像检索装置10的构成包括：输入部12、图像检索部13、显示部14及登记图像存储部15。

输入部12对输入图像数据、登记图像数据进行输入。图1所示的硬件构成当中，图像扫描仪2、通信I/F6等在功能上相当于输入部12。登记图像数据是在输入图像数据被输入之前已经预先输入的图像数据，且存储于登记图像存储部15中。

图3是表示图像检索部13的功能性构成的方框图。

图像检索部13的构成包括：前处理部130、特征提取部131、检索部132。

图像检索部13从利用输入部12输入的输入图像数据中提取特征量，且与在登记图像数据中预先提取的特征量进行比较，并检索图像。

图4是表示由图像检索部13进行的检索处理的流程图。步骤A1中，前处理部130作为针对被输入的图像数据的前处理实施二值化处理。步骤A2中，基于被二值化了的图像数据，特征提取部131提取二值化图像数据的特征量。步骤A3中，检索部132比较登记图像数据的特征量和二值化数据的特征量，并从登记图像数据当中检索与输入图像数据类似度高的图像数据。步骤A4中，将检索结果向显示部14输出。

下面，对各步骤进行详细说明。

由前处理部130进行的步骤A1的前处理，例如表示于图5的流程图中。

当图像数据被输入时，在步骤B1中，判断被输入的图像数据是否是彩色图像数据。如果是彩色图像数据，则前进到步骤B2，进行基于亮度成分的灰度化，而转换为灰度图像数据。如果不是彩色图像，则前进到步骤B3，判断是否是灰度图像数据。如果是灰度图像数据，则前进到步骤B4，使用预先确定的阈值进行二值化，将灰度图像数据转换为二值图像数据。如果不是灰度图像数据，则由于是二值图像数据，因此结束处理。

二值图像数据是将构成图像数据的各像素的像素值设为0或1(白像素或黑像素)的任一个的所谓黑白图像数据，对灰度图像数据的各像素的浓淡度(浓度)进行阈值处理，将全部像素分类为黑像素和白像素。

在文档图像数据中，一般来说由于底色(背景)是白色的，文字部分是黑色的，因此可以说通过二值化处理被分类为黑像素的像素是构成文字的像素。

由特征提取部131进行的步骤A2的特征提取处理，例如表示于图6的流程图中。

如果在步骤C1中输入由前处理部130进行二值化处理后的二值图像数据，则在步骤C2中，检测二值图像数据中的所有的连通区域。

所谓连通区域是指将相连结的相同颜色的像素集合起来的像素组。是检测黑像素的连通区域，还是检测白像素的连通区域，依赖于被输入的图像数据的背景是黑像素还是白像素。如上所述，一般来说由于背景为白像素的情况多，且文字图像被以黑像素来描绘，因此本实施方式中，采用检测黑像素的连通区域的情况来进行说明。在背景为黑像素时，文字图像是以白像素描绘的白色文字，该情况下，只要检测白像素的连通区域即可。

而且，背景是黑像素还是白像素，可以利用公知的背景判别处理来判别，例如，如果上述的整体黑像素比例小于规定的比例，则将背景判别为白像素，如果大于规定的比例，则将背景判别为黑像素。

连通区域的检测可以利用公知的检测方法来检测。例如，对于1个行，检测在该行中相互邻接的黑像素的连接部分(黑色线段)，按每一个行存储黑色线段的线段长度、黑色线段的两端的黑像素的坐标。坐标例如是将平行于行的方向设为x轴，且将与行正交的方向设为y轴而预先决定的。

对于将一个关注行在y方向上夹隔的上下行的黑色线段，如果其两端的黑像素的x坐标在关注行的各黑色线段中的两端的黑像素坐标的x坐标的范围内，则可以看作为关注行的该黑色线段、与以x坐标处于范围内的黑像素作为端部像素的黑色线段在y方向上是连结的。像这样，一边依次地错移关注行，一边针对所有的图像数据，检测x方向的连结部分和y方向的连结部分，检测出黑像素的连通区域。

步骤C3中，基于所检测出的连通区域，来进行单词分割。

为了进行单词分割，首先基于所检测出的连通区域来进行文本行(文字列)的提取。作为检测被输入的原稿图像中的单词的位置的前一阶段，提取文本行。在文本行的提取中，例如可以使用扫描宽度平滑化算法(RLSA)。这里，所检测出的连通区域成为RLSA中的前景分隔符(foreground separator)，从连通区域中作为文本行被再次构建。

当提取文本行时，对文本行按每个单词进行分割。本实施方式中，黑像素由文字构成，且文字以外的部分是白像素，因此在关注横向像素列时，提取白像素的区域(片段)的长度。此后，算出所提取的这些白像素区域的长度的平均值，将小于平均值的白像素区域设为文字之间的区域。

由于文字之间的白像素区域的两侧的黑像素区域是一个相同的单词中所包含的构成文字的黑像素区域，因此这些白像素区域及黑像素区域的集合成为一个单词。

通过对所有的文本行实施这种处理，能够进行单词分割。

步骤C4中，算出相邻接的2个单词中的单词长度的比，提取图像数据的特征量。

利用单词分割被分割后的各单词的单词长度，由沿着行的x方向的像素数来被表示。检测出位于一个单词的两端的像素，并将排列在该像素之间的像素数(包括两端像素)作为单词长度。

图7是表示单词长度及相邻接的两个单词长度的比的示意图。

图4所示的例子中，将文档图像数据的一部分抽出来进行表示，在文档图像数据中，表示被记作“Based on the result”的部分。

通过单词分割，被分割为相当于“Based”的像素组20、相当于“on”的像素组21、相当于“the”的像素组22及相当于“result”的像素组23。

作为像素组20的单词长度检测为d1，作为像素组21的单词长度检测为d2，作为像素组22的单词长度检测为d3，作为像素组23的单词长度检测为d4。此时相邻接的2个单词中的单词长度的比fn可以利用fn＝dn/dn+1来算出。n是1行中所包含的单词数或1页中所包含的全部单词数。图7所示的例子中，单词长度的比fn可以利用f1＝d1/d2、f2＝d2/d3、f3＝d3/d4来分别算出。

这些所算出的单词长度的比fn的数组，是沿着单词的排列顺序排列了单词长度的比的数组，图7的例子中，将f1、f2、f3、f4的数组作为特征量提取。

在按每一行提取单词长度的比fn的数组的情况下，对1个图像数据中所包含的全部行分别提取单词长度的比fn的数组，由所有的数组来构成1个图像数据的特征量。

步骤C5中，将所提取的特征量向检索部132输出。

由检索部132进行的步骤A3的图像检索处理例如如下所示地进行。

检索部132中，比较如上所述地得到的输入图像数据的检索用的特征量、和被预先提取的登记图像数据的特征量，根据比较结果求出输入图像数据与登记图像数据之间的类似度。从登记图像数据当中选择类似度最高的登记图像数据，而作为检索结果。

作为检索结果，不仅可以是类似度最高的登记图像数据，也可以从类似度高的一方中选择规定个数的登记图像数据来作为检索结果。

当利用检索部132输出检索结果时，显示部14显示将作为检索结果被选择的登记图像数据可视化后的图像。

对于登记图像数据，在登记时进行如上所述的特征量的提取，与特征量相关联地存储在登记图像存储部15中。

本发明的特征量是由多个单词长度的比fn构成的数组，即使与登记图像数据相关联的特征量、和输入图像数据的特征量不完全一致，也能够求出类似度。

例如，在输入图像数据为登记图像数据的一部分的情况下，不会有输入图像数据的特征量与登记图像数据的特征量完全一致的情况，输入图像数据的特征量作为登记图像数据的特征量的一部分被包含于其中。

另外，在输入图像数据的一部分与登记图像数据的一部分重复的情况下，不会有输入图像数据的特征量与登记图像数据的特征量完全一致的情况，输入图像数据的特征量的一部分与登记图像数据的特征量的一部分重复。

从而，即使特征量不完全一致，也可以从登记图像数据当中检索出类似的图像数据，进而还可以根据输入图像数据的特征与登记图像数据的特征量如何一致，检测出输入图像数据与登记图像数据的一致部分。

如果对于输入图像数据及登记图像数据，将单词长度的比fn的数组和各图像数据的位置信息(像素坐标)相关联地进行存储，则通过检测出一致的单词长度的比fn的数组，就能够基于与一致的数组对应的位置信息，来检测出输入图像数据与登记图像数据的一致部分。

如果将输入图像数据设为文章内容的一部分，则还可以通过从登记图像数据中检测出一致部分，将检测出的一致部分利用显示部14等显示，来进行内容检索。

这里，对有效的特征量进行说明。对于非常短的文章，也就是单词数少的文章的情况，尽管具有相同的单词长度比fn的数组，然而是不同的文章的可能性较高。

从而，作为用于进行比较的特征量，采用预先确定的单词数以上的单词数，也就是数组中所包含的单词长度比fn的个数(L)为预先确定的个数以上的特征量是有效的。对于使特征量有效的L，根据实验结果，优选为7以上，更优选为10以上。

而且，相邻接的2个单词长度的比作为特征量来说有效的是，用单词长度按每一个单词都不同的语言来记载的文档图像。用采用字母来记载文章的拉丁语系的语言来记载的文档图像该当于这一项。

相对于此，对日语、汉语等中所用的汉字、平假名及片假名来讲，由于每一个文字的大小基本相等，且难以对每个单词明确地分割，因此针对每一个文字算出像素密度并将其作为特征量的做法是有效的。

图8是用于说明像素密度的示意图。

像素密度是指，检测出与一个文字外切的外切矩形，外切矩形中所包含的构成一个文字的像素的像素数在构成该外切矩形整体的全部像素数中所占的比例。如图8所示，以汉字“我”这一个文字为例，对像素密度的算出进行说明。

图8的例子中，首先提取与汉字“我”外切的外切矩形30，计数该外切矩形30的宽度w(像素数)和高度h(像素数)。然后，计数外切矩形30中所包含的构成一个文字的汉字“我”的黑像素31的像素数B。由于像素密度如上所述是构成一个文字的像素的像素数B相对于构成外切矩形整体的全部像素数的比例，因此在将像素密度设为f时，就可以利用f＝B/(w×h)来算出。

按每一个文字算出这种像素密度f，将依照文本行上的文字的排列顺序排列了多个像素密度f的数组作为特征量来提取。

在按每一行提取像素密度f的数组的情况下，针对一个像素数据中所包含的全部行分别提取像素密度f的数组，并利用全部的数组来构成一个图像数据的特征量。

在检索用日语、汉语记载的文档图像数据的情况下，除了将特征量设为像素密度f的数组以外，可以与上述的将单词长度比fn的数组作为特征量的检索处理相同地进行检索。

根据本发明，可获得如下所示的效果。

与如以往技术那样的将标点符号之间的文字数作为特征量来检索的情况相比，通过将相邻接的两个单词的单词长度的比作为特征量来使用，虽然是不同文章然而形成相同的特征量的可能性很低，因此能够提高文档图像数据的检索精度。

另外，由于即使是以比较低的析像度读取的文档图像数据，单词长度也不会被误检测，因此能够使用低析像度的文档图像数据，还能够将检索处理涉及的处理速度高速化，削减用于存储文档图像数据的存储容量。

另外，即使被输入的文档图像数据与被登记的文档图像数据的特征量不完全一致，也可以从登记图像数据当中检索出类似的图像数据。

而且，图像检索装置10的各区块，特别是输入部12、检索部13、显示部14及登记图像存储部15等既可以由硬件逻辑来构成，也可以如下所示地使用CPU并通过软件来实现。

即，图像检索装置10具备：执行实现各功能的控制程序的命令的CPU(central processing unit)、存放上述程序的ROM(read onlymemory)、展开上述程序的RAM(random access memory)、存放上述程序及各种数据的存储器等存储装置(记录介质)等。此外，本发明的目的也可以通过如下操作来实现，即：将可通过计算机读取地记录有实现上述功能的作为软件的图像检索装置10的控制程序的程序码(执行形式程序、中间码程序、源程序)的记录介质，向上述图像检索装置10供给，并由其计算机(或者CPU或MPU)读出并执行记录于记录介质中的程序码。

作为上述记录介质，例如可以使用磁带或盒式磁带等磁带类；包括软盘(注册商标)/硬盘等磁盘或CD-ROM/MO/MD/DVD/CD-R等光盘的盘类；IC卡(包括存储卡)/光卡等卡类；或者掩模ROM/EPROM/EEPROM/闪存ROM等半导体存储器类等。

另外，也可以将图像检索装置10以能够与通信网络连接的方式构成，经由通信网络供给上述程序码。作为该通信网络，没有特别限定，例如可以利用互联网、内部网、外部网、LAN、ISDN、VAN、CATV通信网、虚拟专用网(virtual private network)、电话线路网、移动通信网、卫星通信网等。另外，作为构成通信网络的传输介质，没有特别限定，例如无论是IEEE1394、USB、电力线载波、电缆TV线路、电话线、ADSL线路等有线，还是IrDA或遥控器之类的红外线、蓝牙(Bluetooth：注册商标)、802、11无线、HDR、移动电话网、卫星线路、地面波数字网等无线，都可以利用。而且，本发明也可以利用将上述程序码以电子形式传输具体化了的嵌入于载波中的计算机数据信号的形态来实现。

本发明在不脱离其精神或主要特征的情况下能够以其他各种形式来实施。从而，上述实施方式在所有的方面都只不过是单纯的例示，本发明的范围是权利要求书中所示的范围，不受说明书正文的任何约束。另外，属于权利要求书的变形或变更都是本发明的范围内的内容。

Claims

1.一种图像检索装置，从预先登记的文档图像数据当中检索与被输入的文档图像数据类似的文档图像数据，该图像检索装置的特征在于，具备：

2.根据权利要求1所述的图像检索装置，其特征在于，上述特征量提取部将表示构成上述单词的区域的长度的像素数作为上述单词长度，算出上述单词长度的比。

3.根据权利要求1或2所述的图像检索装置，其特征在于，登记图像存储部将上述单词长度的比的数组、和上述被登记的文档图像数据中的上述单词长度的比的数组的位置信息相关联地进行存储，

上述检索部检测出所检索的文档图像数据中的与上述被输入的文档图像数据的上述单词长度的比的数组一致的部分，

4.一种图像检索装置，从预先登记的文档图像数据当中检索出与被输入的文档图像数据类似的文档图像数据，该图像检索装置的特征在于，具备：