CN101419673A

CN101419673A - 图像词典生成装置及方法

Info

Publication number: CN101419673A
Application number: CNA2005100538725A
Authority: CN
Inventors: 木村俊一; 越裕
Original assignee: Fuji Xerox Co Ltd
Current assignee: Fujifilm Business Innovation Corp
Priority date: 2004-04-12
Filing date: 2005-03-14
Publication date: 2009-04-29
Anticipated expiration: 2025-03-14
Also published as: JP2005301664A; CN101419673B; US20050226516A1

Abstract

图像词典生成装置及方法。一种图像词典生成装置，其包括：信息获取单元，用于获得对输入图像进行的字符识别处理的结果；字符串选择单元，用于根据由所述信息获取单元获得的字符识别的结果来选择所述输入图像中彼此相邻的字符串；典型模式确定单元，用于根据由所述字符串选择单元选择的字符串的图像来确定组成所述输入图像的典型图像模式；以及识别信息分配单元，用于向由所述典型模式确定单元确定的各个所确定的图像模式分配用于识别图像模式的识别信息。

Description

图像词典生成装置及方法

技术领域

本发明涉及一种编码装置，其生成图像词典并将所生成的图像词典应用于编码处理，该图像词典将组成输入图像的图像模式与这些图像模式的识别信息相互关联。

背景技术

例如，已知提供了一种图像记录装置，其接收包含第一图像(由摄影图像和图形组成)和第二图像(由字符组成)的图像数据的输入，检测该图像信息中的第二图像区域，并且从该图像信息中提取并记录该第二图像区域。通过这种装置，可以将第二图像区域中的字符转换成字符代码，记录并将其用作为检索的关键字。还已知提供了一种字符区域编码方法，其中准备编码侧和解码侧共用的字体数据库，并且对字符代码和字体类型进行编码。

发明内容

鉴于上述背景提出本发明，并且本发明的目的是提供一种编码装置，其生成图像词典，用于实现高的编码效率，并通过应用该图像词典来进行编码。

本发明提供了一种图像词典生成装置，其包括：信息获取单元，其获得对输入图像进行的字符识别处理的结果；字符串选择单元，其根据由所述信息获取单元获得的字符识别结果选择在输入图像中彼此相邻的字符串；典型模式确定单元，其根据由所述字符串选择单元选择的字符串图像来确定组成所述输入图像的典型图像模式；以及识别信息分配单元，其向由所述典型模式确定单元确定的各个所确定的图像模式分配用于识别图像模式的识别信息。

本发明提供了一种编码装置，其包括：替换单元，其根据将包含在输入图像中的字符图像和字符串图像与识别信息相关联的图像词典，使用该识别信息和字符区域信息来替换字符图像或者字符串图像，该字符图像和字符串图像包含在输入图像中，该识别信息与字符图像或者字符串图像相对应，该字符区域信息表示字符图像或者字符串图像的区域；代码输出单元，其输出由所述替换单元替换的该识别信息、字符区域信息以及图像词典。

本发明提供了一种计算机可读介质，其被构造用来存储数据文件，该数据文件包括：第一图像词典数据，其包含与多个字符图像相关的数据，各个字符图像与单个字符以及用于识别该字符图像的第一识别信息相对应，与字符图像相关的数据与该第一识别信息相互关联；第二图像词典数据，其包含与多个字符串图像相关的数据，该多个字符串图像与多个字符串以及用于识别这些字符串图像的第二识别信息相对应，与多个字符串图像相关的数据与该第二识别信息相互关联；以及编码数据，其包含字符图像或者字符串图像在整个图像中出现的位置，以及与字符图像或者字符串图像相对应的识别信息，这些位置和该识别信息相互关联。

本发明提供了一种图像词典生成方法，包括：获得对输入图像进行的字符识别处理的结果；根据所获得的字符识别结果来选择在输入图像中彼此相邻的字符串；根据所选择的字符串图像来确定组成该输入图像的典型图像模式；以及将用于识别图像模式的识别信息分配给所确定的图像模式。

本发明提供了一种计算机可读介质，其被构造用来存储用于操作图像词典生成装置中的计算机的指令集合，这些指令包括：获得对输入图像进行的字符识别的结果；根据所获得的字符识别结果来选择在输入图像中彼此相邻的字符串；根据所选择的字符串图像来确定组成该输入图像的典型图像模式；以及为所确定的图像模式提供用于识别图像模式的识别信息。

附图说明

将基于以下附图来详细描述本发明的实施例，附图中：

图1A是在存在共用字体数据库的前提下的编码方法的说明图。

图1B是在配属有图像词典的前提下的编码方法的说明图。

图2A是表示图像词典的说明图。

图2B和2C是表示要登记在图像词典中的多个图像模式单元的说明图。

图3是表示主要包括控制装置的图像处理装置的硬件结构的方框图，在该图像处理装置中应用了本发明的图像词典生成方法。

图4是表示编码程序的功能构造的方框图，该编码程序由控制装置执行，并实现本发明的图像词典生成方法。

图5是更详细地说明图像词典生成部分的功能的方框图。

图6是更详细地说明编码部分的功能的方框图。

图7是表示编码程序的操作的流程图。

图8是更详细地描述单字符对应图像模式确定处理的流程图。

图9是更详细地描述字符串对应图像模式确定处理的流程图。

图10A是表示字符图像(单个字符)的图像词典的说明图。

图10B是表示候选字符串与出现频度的说明图。

图10C是表示根据候选字符串生成的字符串图像的图像词典的说明图。

图11是更详细地说明编码处理的流程图。

图12是表示对于各种字符识别准确度而生成的图像词典的说明图。

具体实施方式

首先，为了理解本发明，将描述其背景及概要。

例如，图像处理装置2可以通过对识别信息和字符图像的出现位置进行编码，而不是对包含在输入图像中的字符图像本身进行编码来实现高的压缩率。

图1A描述了根据存在共用字体数据库的假设的编码方法，而图1B描述了在提供图像词典的前提下的编码方法。

如图1A中所示，当在编码侧和解码侧都存在共用字体数据库(其通过将字符图像与识别信息(字符代码和字体类型)相关联来存储字符图像)时，在编码侧的图像处理装置可以通过对与字符图像相关的识别信息(字符代码和字体类型)和字符图像的出现位置进行编码，以高的压缩率将图像数据发送给解码侧的图像处理装置。在这种情况下，在解码侧的图像处理装置对所接收的编码数据(字符代码、字体类型和出现位置)进行解码，并根据所解码的字符代码、字体类型和出现位置以及在字体数据库中登记的字体图像来生成字符图像。

然而，在以存在字体数据库为前提的编码方法中，必须分别向编码侧和解码侧提供字体数据库，并且字体数据库增加了存储区域的负担。当更新编码侧的字体数据库时，也必须更新解码侧的字体数据库，以使其具有与编码侧相同的内容。此外，该方法并不能充分地处理手写字符，这是因为由字体图像替代了手写字符从而降低了可重现性，并且将手写字符作为非字符图像来处理，从而不能减少代码量。

因此，如图1B中所示，在解码侧，该实施例中的图像处理装置2通过将包含在输入图像中的典型图像模式与索引相关联来对它们进行登记，并将包含在输入图像中的图像模式替换为对应的索引和出现位置，以对它们进行编码。在编码侧，将包含相互关联的图像模式和索引的图像词典、经编码的索引以及出现位置发送给解码侧。在解码侧，对索引和出现位置进行解码，并且从图像词典中选择与所解码的索引相对应的图像模式，并将其排列在所解码的出现位置。

因此，图像处理装置2通过根据输入图像创建并发送或接收图像词典来实现高的压缩率，而不需要共用数据库的前提。字体数据库不需要在编码侧和解码侧之间同步。此外，可以减少代码量，同时保持对手写字符的足够的可重现性。为了减少代码量，期望也对图像词典进行编码。

图2A表示图像词典，而图2B和2C表示图像模式单元。

如图2A中所示，图像词典包括包含在输入图像中的多个图像模式以及分配用来识别这些图像模式的索引。图像模式是包含在输入图像中的局部图像数据，并且在该示例中，该图像模式是在输入图像(二值(binary))中出现预定次数或更多次(多次)的标准(stereotyped)模式(二值数据)。索引是为每一个输入图像生成的识别信息，并且可以是为图像模式分配的序列号，以从输入图像中提取多个图像模式。

接下来，将讨论从输入图像中提取和登记图像模式作为图像词典所应用的标准。根据所提取的图像模式的大小和出现频度，输入图像的代码量有所不同。例如，如图2B中所示，考虑了以字符图像为单位提取图像模式的情况以及以比字符图像小的单位提取图像模式的情况。

在以比字符图像小的单位提取图像模式的大多数情况下，图像模式的出现频度变高(例如，“1”的竖线部分作为“L”和“J”的一部分出现)，并且要登记在图像词典中的图像模式的数量增加，导致图像词典包含大量数据。

另一方面，当以字符图像为单位提取图像模式时，出现相同语言的具有相同字体类型和相同字体大小的许多字符，由此，尽管图像模式的尺寸较大，也可以预期具有高的出现频度。

此外，为了通过允许一定程度的不可逆性来获得高的压缩率，编码侧的图像处理装置不仅将作为图像模式的相同的部分图像而且将与图像模式相似的部分图像由索引进行替换并进行编码。在这种情况下，如果将字符图像的组成部分替换为相似的图像模式，则可能将这些图像模式作为整个字符图像解码为完全不同的图像，并且失去了可读性。然而，当以字符图像为单位提取图像模式时，将字符图像的整体形式替换为相似的图像模式(例如，数字“1”和字母“I”等)，并且可以保持一定程度的可读性。

因此，该实施例的图像处理装置2从输入图像中以字符图像为单位提取图像模式，并将这些图像模式登记在图像词典中。

此外，如图2C所示，在同一页面或者同一文档中，在许多情况下，不仅字符大小和字体类型而且包括在字符串中的字符间距几乎恒定。此外，在许多情况下，包含在输入图像中的字符串之间存在高的相关性。

因此，通过将字符串的图像(下文中称为字符串图像)作为单个图像模式登记在图像词典中，可以实现高的压缩率。

因此，该实施例的图像处理装置2从输入图像中以字符串为单位提取图像模式，并将这些图像模式登记在图像词典中。该实施例中的字符串是指多个字符的组合。

接下来，描述图像处理装置2的硬件结构。

图3表示以控制装置20为中心的图像处理装置2的硬件结构，该图像处理装置2应用了根据本发明的图像词典生成方法。

如图3中所示，图像处理装置2包括：控制装置20，其包括CPU202和存储器204等；通信装置22；存储装置24，例如HDD/CD装置；以及用户接口装置(UI装置)，包括LCD显示器或者CRT显示器以及键盘和触摸板等。

图像处理装置2例如是通用计算机，其安装有作为打印机驱动程序的一部分的编码程序5(稍后描述)，其通过通信装置22或者存储装置24获得图像数据，对所获得的图像数据进行编码，并将该数据发送给打印机10。图像处理装置2获得通过打印机10的扫描仪功能光学读取的图像数据，并对所获得的图像数据进行编码。

图4表示编码程序5的功能构造，该编码程序由控制装置20(图3)执行以实现本发明的图像词典生成方法。

如图4中所示，编码程序5具有图像输入部分40、图像词典生成部分50以及编码部分60。

在编码程序5中，图像输入部分40(信息获取单元)获得通过打印机10的扫描仪功能读取的图像数据或者通过通信装置22或存储装置24获得的PDL(页面描述语言)形式的图像数据，将所获得的图像数据转换为光栅数据，并将其输出给图像词典生成部分50。图像输入部分40具有用于从光学读取的图像数据等中识别字符图像的字符识别部分410以及用于通过解释PDL中的图像数据来生成光栅数据的PDL分解器420。

字符识别部分410识别包含在输入图像数据(下文中称为输入图像)中的字符，并将所识别字符的字符识别信息和所识别字符的字符区域信息作为字符识别处理的结果输出给图像词典生成部分50。这里，字符识别信息是用于识别字符的数据，并且例如是通用字符代码(ASCII码或者移位JIS码等)或者是字符代码和字体类型的组合。字符区域信息是表示输入图像中的字符区域的数据，并且是例如包含字符图像位置、大小和范围、或者这些的组合的与字符相关的版面信息。

PDL分解器420通过解释PDL中的图像数据来生成光栅化的图像数据(光栅数据)，并将与所生成图像数据的字符图像相关的字符识别信息和字符区域信息以及所生成的图像数据一起输出给图像词典生成部分50。

图像词典生成部分50根据从图像输入部分40输入的输入图像来生成用于对输入图像进行编码的图像词典，并将所生成的图像词典和输入图像输出给编码部分60。具体地，图像词典生成部分50根据从字符识别部分410或者PDL分解器420输入的字符来识别信息和字符区域信息，以字符图像为单位以及以字符串图像为单位从输入图像中提取图像模式，并且为所提取的图像模式分配索引以生成图像词典，并将这些输出给编码部分60。

编码部分60根据从图像词典生成部分50输入的图像词典对输入图像进行编码，并将经编码的输入图像和图像词典输出给存储装置24(图3)或者打印机10(图3)。具体地，编码部分60对登记在图像词典中的图像模式和包含在输入图像中的部分图像进行比较，并将与任何图像模式一致或相似的部分图像的数据替换为与图像模式相对应的索引和该部分图像的位置信息。此外，编码部分60可以通过熵编码(霍夫曼编码、算术编码或者LZ编码)对替换部分图像和图像词典的索引以及位置信息进行编码。

图5更详细地描述了图像词典生成部分50的功能。

如图5中所示，图像词典生成部分50包括存储部分500(模式存储单元)、字符图像提取部分510、字符分类部分520、一致确定部分530、字符串选择部分535、字符词典确定部分540、字符串词典确定部分545(典型模式确定单元)、位置校正部分550以及索引分配部分(识别信息分配单元)。存储部分500控制存储器204(图3)和存储装置24(图3)，以存储从图像输入部分40(图4)输入的输入图像、字符识别信息和字符区域信息。下文中，将字符代码作为字符识别信息的详细示例来描述，并且将字符位置信息作为字符区域信息的详细示例来描述。

字符图像提取部分510根据字符位置信息从输入图像中裁剪字符图像。即，字符图像提取部分510从输入图像中提取由字符区域信息表示的区域作为字符图像。所提取的字符图像是由字符识别部分410确定为字符图像的区域。字符识别部分410或者PDL分解器420可以将从输入图像中裁剪的字符图像输出给图像词典生成部分50。

字符分类部分520根据字符代码将从输入图像中裁剪的字符图像分类为多个字符图像组。例如，字符分类部分520将具有相同字符代码的字符图像分类为同一字符图像组。

一致确定部分530对从输入图像中裁剪的多个字符图像进行比较，并确定一致程度。这里，一致程度是表示多个图像彼此之间的一致程度的数据，并且是指例如，在二值图像的相互比较中，当两个字符图像相互重叠时相互重叠的像素数(以下称为一致像素数)、通过对该一致像素数进行归一化(例如，一致像素数除以总像素数)而获得的一致像素率、多个字符图像相互重叠时的像素分布(直方图)等。

一致确定部分530通过在多个相对位置处对多个字符图像进行比较来确定一致程度。即，一致确定部分530比较多个字符图像，同时将它们相互移位以计算最高的一致程度。

例如，一致确定部分530计算一致像素率，同时将分类为同一字符图像组的两个字符图像(具有彼此相同的字符代码的字符图像)相互移位，并将一致像素率的最高值和移位向量(通过该移位向量获得该最高值)输出给存储部分500。

字符串选择部分535根据字符代码来选择要作为图像模式登记在图像词典中的字符串。具体地，字符串选择部分535根据包含在输入图像中的字符图像的字符代码来选择彼此相邻的字符组合作为候选字符串，计算所选择的候选字符串的出现频度，并根据所计算的出现频度来选择要登记在图像词典中的字符串。字符串选择部分535通过将页、文档或者任务设定为单位来计算候选字符串的出现频度，并确定对于各页、文档或者任务要登记在图像词典中的字符串。

字符词典确定部分540根据包含在各个字符图像组中的字符图像来确定要登记在图像词典中的图像模式(分别与单个字符相对应)。即，字符词典确定部分540根据具有彼此相同的字符代码的多个字符图像来确定要登记的图像模式。例如，字符词典确定部分540定义了具有彼此相同的字符代码的多个字符图像(稍后描述的经位置校正的字符图像)的总和耦合模式(sum coupling pattern)，作为要登记的图像模式。该总和耦合模式是相互重叠的多个图像的合并形式。

字符串词典确定部分545生成由字符串选择部分535选择的字符串的图像(字符图像)，并将所生成的字符串图像作为图像模式登记在图像词典中。具体地，字符串词典确定部分545从由字符词典确定部分540确定的字符图像的图像模式中，选择组成由字符串选择部分535选择的字符串的字符的图像(字符图像)，并组合所选择的图像模式以生成字符串图像。

位置校正部分550根据从一致确定部分530输出的移位向量来校正与字符图像相关的位置信息。即，位置校正部分550校正从图像输入部分40输入的位置信息，以使得具有彼此相同的字符代码的多个字符图像的一致程度变得最高。

索引分配部分560为根据输入图像确定的图像模式提供用于识别图像模式的索引，并通过将索引与图像模式相关联来将所分配的索引输出给存储部分500。索引分配部分560为与由字符词典确定部分540确定的单字符相对应的图像模式以及与由字符串词典确定部分545确定的字符串相对应的图像模式提供不同的索引。

图6更详细地描述了编码部分60的功能。

如图6中所示，编码部分60包括模式确定部分610(替换单元)、位置信息编码部分620、索引编码部分630、图像编码部分640、词典编码部分650、选择部分660以及代码输出部分670。

模式确定部分610将登记在图像词典中的图像模式与包含在输入图像中的部分图像进行比较，并确定与部分图像相对应的图像模式(相同或相似的图像模式)。具体地，模式确定部分610将基于字符图像从输入图像中裁剪的部分图像(由位置校正部分550进行了校正)与图像模式重叠，以通过与一致确定部分530(图5)相同的方法来计算一致程度，并根据所计算的一致程度是否等于或大于基准值来确定它们是否彼此对应。

当找到对应的图像模式时，模式确定部分610向位置信息编码部分620输出该部分图像的位置信息，并向索引编码部分630输出该图像模式的索引，当没有找到对应的图像模式时，模式确定部分向图像编码部分640输出该部分图像。

与分别对应于单个字符的图像模式相比较，模式确定部分610更优选地采用分别与字符串相对应的图像模式，并且例如当多个分图像连续地与分别对应于单个字符的图像模式一致，并且这些部分图像还与对应于字符串的图像模式一致时，模式确定部分向索引编码部分630输出与字符串相对应的图像模式的索引，并向位置信息编码部分620输出在将多个部分图像确定为一个部分图像时获得的位置信息。

位置信息编码部分620对从模式确定部分610输入的部分图像进行编码(即，由位置校正部分550校正的(字符串图像或字符图像的)位置信息)，并且将它们输出给选择部分660。例如，位置信息编码部分620通过采用LZ编码或者算术编码来对位置信息进行编码。

索引编码部分630对从模式确定部分610输入的索引进行编码，并将它们输出给选择部分660。例如，索引编码部分630根据索引的出现频度为各个索引提供不同代码长度的代码。

图像编码部分640采用适于图像的编码方法，以对从模式确定部分610输入的部分图像进行编码，并将它们输出给选择部分660。

词典编码部分650对从图像词典生成部分50(图4、图5)输入的图像词典(包含彼此相关联的图像模式和索引)进行编码，并将它们输出给代码输出部分670。

选择部分660在通过模式确定部分610找到与部分图像相对应的图像模式时，通过将从位置信息编码部分620输入的位置信息的编码数据以及从索引编码部分630输入的索引的编码数据相互关联，来将它们输出给代码输出部分670，并且在通过模式确定部分610没有找到与部分图像相对应的图像模式时，将由图像编码部分640进行了编码的部分图像的编码数据输出给代码输出部分670。

代码输出部分670通过将编码数据(位置信息、索引和部分图像的编码数据)以及从词典编码部分650输入的编码数据(图像词典的编码数据)相互关联来将它们输出给打印机10(图3)、存储装置22(图3)或者通信装置22(图3)。

接下来，将描述由图像处理装置2进行的编码的整个操作。

图7是表示编码程序5的操作(S1)的流程图。在该流程图中，作为详细示例说明了输入通过打印机10的扫描仪功能光学读取的二值图像数据的情况。

如图7中所示，在步骤10(S10)中，当从打印机10(图3)输入图像数据(二值)时，图像输入部分40将所输入的图像数据(输入图像)输出给图像词典生成部分50。图像输入部分40的字符识别部分410(图4)对输入图像进行字符识别处理，确定包含在输入图像中的字符图像的字符代码和位置信息，并将所确定的字符代码和位置信息输出给图像词典生成部分50。在该示例中，将字符图像的起始位置(扫描的最上游位置)和结束位置(扫描的最下游位置)的组合作为位置信息的详细示例进行描述。

在步骤20(S20)中，图像词典生成部分50的存储部分500将从图像输入部分40输入的输入图像、字符代码以及位置信息(起始位置和结束位置)存储在存储器204(图3)中。

字符图像提取部分510根据由存储部分500存储的位置信息(起始位置和结束位置)，指定输入图像中的字符图像的范围，并从所指定的范围中裁剪字符图像，并将它们存储在存储部分500中。从要进行编码的整个输入图像(例如，一页或者一个文档)中裁剪字符图像。

在步骤30(S30)中，字符分类部分520、一致确定部分530、字符词典确定部分540以及位置校正部分550相互结合地通过从字符识别部分410(图4)输入的字符代码，对由字符图像提取部分510提取的字符图像进行分类，并根据所分类的字符图像来确定要登记在图像词典中的图像模式，并且将这些模式作为图像词典存储在存储部分500中。

在步骤40(S40)中，字符串选择部分535和字符串词典确定部分545相互结合地选择要作为图像模式登记在图像词典中的字符串，并将所选择的字符串图像作为图像模式存储在存储部分500中。

在步骤50(S50)中，索引分配部分560为所确定的图像模式(分别与单个字符相对应的图像模式以及分别与字符串相对应的图像模式)提供索引，并通过将所分配的索引与图像模式相关联来对它们进行存储。所分配的索引用于识别至少对于作为编码目标输入的整个输入图像唯一的图像模式。

当对于作为编码目标输入的整个输入图像完成了图像模式的确定以及索引的提供时，将图像模式和索引作为图像词典输出给编码部分60。

在步骤60(S60)中，编码部分60对登记在图像词典中的图像模式和包含在输入图像中的部分图像进行比较，并且当存在与该图像模式一致的图像模式时，将该部分图像替换为索引和位置信息(仅起始位置)以对该部分图像进行编码，并且对与该图像模式不一致的部分图像进行编码，而不对其进行改变。此外，编码部分60对图像词典进行编码。

在步骤70(S70)中，编码部分60将索引、位置信息(仅起始位置)以及部分图像的编码数据和图像词典的编码数据输出给打印机10等。

图8是更详细地描述单个字符对应图像模式确定处理(S30)的流程图。

如图8中所示，在步骤300(S300)中，字符分类部分520通过从字符识别部分410(图4)输入的字符代码对由字符图像提取部分510提取的字符图像进行分类。

在步骤302(S302)中，一致确定部分530对通过字符代码进行了分类的字符图像在多个相对位置处相互进行比较，并确定一致程度。具体地，一致确定部分530准备字符图像组中的黑色像素的像素分布(直方图)，并计算黑色像素的一致像素数，同时将所准备的像素分布和包含在该字符图像组中的字符图像彼此移位。像素分布是直方图，该直方图表示对于各个区域在一致像素数变得最高的相对位置处，属于字符图像组的字符图像的黑色像素的像素值的总和。

即，当将字符图像组的像素分布定义为Q(x)，将各个字符图像的像素值定义为P(i，x)，将位置向量定义为x，将属于字符图像组的各个字符图像定义为i(1到N，N是属于字符图像组的字符图像的数量)，并且将字符图像i的移位向量定义为vi时，一致确定部分530通过下式来计算一致像素数。

(一致像素数K)＝∑{Q(x)*P(i，x-vi)}

(“∑x”表示变量x的总和)，

其中，当i＝1时，Q(x)＝P(1，x)，并且

当i>1时，Q(x)＝P(1，x)+P(2，x-v2)+…+P(i-1，x-v(i-1))

在步骤304(S304)中，位置校正部分550根据由一致确定部分530在多个相对位置处计算的一致像素数(一致程度)，来确定从字符识别部分410输入的位置信息的校正向量。具体地，位置校正部分550将在由一致确定部分530计算的一致像素数K变得最大时获得的移位向量vi(根据从字符识别部分410输入的位置信息对字符图像进行移位的二维向量)设定为校正向量。

在步骤306(S306)中，一致确定部分530对分类为同一字符图像组的多个字符图像(通过校正向量对它们的位置进行了校正)进行比较，并计算各个区域中的像素值的一致程度。具体地，一致确定部分530在一致像素数变得最高的相对位置处将包含在字符图像组中的所有字符图像进行重叠，并通过计算各个区域中的黑色像素的总和来生成像素分布

(直方图)。即，一致确定部分530通过下式来计算包含在各个字符图像组中的所有字符图像(1到N)的Q(x)。

Q(x)＝∑P(i，x-vi)

在步骤308(S308)中，字符词典确定部分540进行阈值处理，以去除等于或小于由一致确定部分530计算的一致程度(像素分布)阈值的分布数量。具体地，字符词典确定部分540将一致确定部分530计算出的Q(x)归一化为Q′(x)，并对所计算出的Q′(x)进行阈值处理。即，字符词典确定部分540通过下式来计算分布概率Q′(x)。

Q′(x)＝Q(x)/N

接下来，通过下面的条件公式，一致确定部分530通过去除分布概率Q′(x)小于基准值的部分来计算Q″(x)。

当Q′(x)>阈值A时，Q″(x)＝1

在其它情况下，Q″(x)＝0

在步骤310(S310)中，字符词典确定部分540确定具有在经过阈值处理后的像素分布中不为零的分布数量的区域是否比基准区域宽，并且当该区域等于或大于基准区域时，处理转到S312的处理，而当该区域比基准区域窄时，结束图像模式确定处理(S30)而不对该字符图像组的图像模式进行登记。

具体地，字符词典确定部分540确定使上述Q″(x)变为1的像素数是否等于或者大于基准值，当等于或大于基准值时，执行图像模式登记，而当小于基准值时，不执行图像模式登记。

在步骤312(S312)中，字符词典确定部分540根据像素分布来确定图像模式。具体地，字符词典确定部分540将Q″(x)的模式确定为要登记在图像词典中的图像模式(与单个字符相对应的图像模式)，并将其作为图像词典存储在存储部分500中。

图9是更详细地描述与字符串相对应的图像模式确定处理(S40)的流程图。

如图9所示，在步骤400(S400)中，字符串选择部分535根据从字符识别部分410连续输入的字符代码来确定作为候选字符串的字符组合。在该示例中，作为候选字符串的详细示例来描述由两个字符组成的字符串。

具体地，字符串选择部分535将以输入顺序彼此相邻的两个字符代码的组合确定为候选字符串。

在步骤402(S402)中，字符串选择部分535对作为编码目标的整个输入图像(整页、整篇文档或任务)中的候选字符串的出现频度进行计数。具体地，字符串选择部分535在以输入顺序对齐的字符代码中，对被确定为候选字符串的字符代码的组合的彼此相邻的出现次数进行计数。

在步骤404(S404)中，字符串选择部分535根据所计数的出现频度从候选字符串中选择要登记在图像词典中的字符串。具体地，字符串选择部分535为出现频度设定阈值，并选择出现频度等于或大于该阈值的候选字符串作为要登记在图像词典中的字符串。

在步骤406(S406)中，字符词典确定部分545生成由字符串选择部分535选择的字符串的图像，并将所生成的字符串图像作为图像词典存储在存储部分500中。具体地，字符串词典确定部分545读取其字符代码与组成从图像词典中选择的字符串的字符相同的图像模式(分别与单个字符相对应)，并组合所读取的图像模式以生成字符串图像的图像模式。当组合多个图像模式(分别与单个字符相对应)时，根据组成字符串的各个字符的位置信息(由位置信息校正部分550进行了校正)，来确定要组合的图像模式的相对位置。

在该示例中，字符串选择部分535根据待输入的字符代码的顺序，来选择彼此相邻的字符的组合，然而本发明并不限于此，例如，可以根据字符的位置信息(从字符识别部分410输入的位置信息)来选择彼此相邻的字符的组合。

即使候选字符串具有相同的字符代码组合，但是如果根据字符的位置信息确定彼此相邻的字符图像之间的间距不同(例如，“ab”和“ab”)，则也将这些候选字符串选择为不同的候选字符串，并且可以计算各个候选字符串的出现频度。

图10A表示字符图像(单个字符)的图像词典，图10B表示候选字符串和出现频度，而图10C表示根据候选字符串生成的字符串图像的图像词典。

如图10A所示，图像词典生成部分50生成图像词典(第一图像词典数据)，其中在图7所示的处理S30中，字符代码、根据字符代码的字符图像组生成的图像模式的数据文件(字符图像)、以及分配给图像模式的索引相互关联。即，字符词典确定部分540根据由与字母“a”相对应的字符代码进行了分类的字符图像组，来生成表示为“文件001”的图像模式数据文件。索引分配部分560提供索引(序列号等)，从而可以在图7所示的S50中在页面、文档或者任务中唯一地识别所生成的图像模式。

此外，如图10B所示，在图7中所示的S40的处理中，图像词典生成部分50选择由彼此相邻的字符组成的候选字符串，并计算所选择的候选字符串的出现频度(在页面、文档或任务中)，并且选择所计算的出现频度等于或大于阈值(在该示例中为“2”)的候选字符串作为要登记在图像词典中的字符串。在图7中所示的S50中，通过索引分配部分560为所选择的字符串分配索引。

如图10C所示，图像词典生成部分50通过排除出现频度小于阈值(在该示例中为“2”)的候选字符串，来生成字符串图像的图像词典(第二图像词典数据)。在图9的步骤S406中，根据图10A中所示的字符图像(分别与单个字符相对应)的数据文件，生成要登记在图像词典中的字符串图像。

图11是详细描述编码处理(S60)的流程图。在该流程图中，作为详细示例描述了根据在图8中确定的图像模式进行编码的情况。

如图11所示，在步骤600(S600)中，模式确定部分610根据经校正的位置信息从输入图像中连续地裁剪两个字符的部分图像(两个字符的字符图像)，并将所裁剪的两个字符的部分图像与登记在图像词典中的字符串图像的图像模式进行比较，并且计算一致像素数。模式确定部分610可以从一致确定部分530获得该一致像素数。

在步骤602(S602)中，模式确定部分610确定是否存在一致的图像模式。具体地，模式确定部分610确定对各个图像模式(字符串)计算的一致像素数是否位于可允许范围内(例如，部分图像的所有像素的90％或更多)，当在可允许范围内时，处理转到S604的处理，而当在可允许范围之外时，处理转到S608的处理。

在步骤604(S604)中，模式确定部分610从图像词典中读取一致像素数在可允许范围内的图像模式(字符串)中具有最大一致像素数的图像模式的索引，将所读出的索引输出给索引编码部分630，并将该字符图像的位置信息(即，两个字符的部分图像的起始位置)输出给位置信息编码部分620。

索引编码部分630对从模式确定部分610输入的索引(字符串)进行编码，并将该索引的编码数据输出给选择部分660。

在步骤606(S606)中，位置信息编码部分620对从模式确定部分610输入的位置信息(即，两个字符的部分图像的起始位置)进行编码，并将位置信息的编码数据输出给选择部分660。

选择部分660通过将从索引编码部分630输入的索引(字符串)的编码数据以及从位置信息编码部分620输入的位置信息(字符串)的编码数据相互关联，来将它们输出给代码输出部分670。即，选择部分660将索引和位置信息输出给代码输出部分670，从而使得它们对于各个部分图像相互关联。

在步骤608(S608)中，模式确定部分610将所裁剪的两个字符的部分图像的前一半(即，单个字符的字符图像)与登记在图像词典中的字符图像的图像模式(与单个字符相对应)进行比较，并计算一致像素数。

在步骤610(S610)中，模式确定部分610确定对各个图像模式(分别与单个字符相对应)计算的一致像素数是否在可允许范围内(例如，部分图像的所有像素的90％或更多)，当在可允许范围内时，处理转到S612的处理，而当不在可允许范围内时，处理转到S616的处理。

在步骤612(S612)中，模式确定部分610从图像词典中读取一致像素数在可允许范围内的图像模式(分别与单个字符相对应)中具有最大一致像素数的图像模式的索引，将所读出的索引输出给索引编码部分630，并将该字符图像的位置信息(由位置校正部分550进行了校正)输出给位置信息编码部分620。

索引编码部分630对从模式确定部分610输入的索引(与单个字符相对应)进行编码，并将该索引的编码数据输出给选择部分660。

在步骤614(S614)中，位置信息编码部分620对从模式确定部分610输入的位置信息(部分图像的起始位置)进行编码，并将位置信息的编码数据输出给选择部分660。

选择部分660通过将从索引编码部分630输入的索引(与单个字符相对应)的编码数据以及从位置信息编码部分620输入的位置信息的编码数据相互关联，来将它们输出给代码输出部分670。

在步骤616(S616)中，模式确定部分610将部分图像(即，与单个字符相对应的字符图像，该单个字符不与图像词典中的图像模式相对应)输出给图像编码部分640。

图像编码部分640对从模式确定部分610输入的部分图像(与单个字符相对应的字符图像)的图像数据进行编码，并将该部分图像的编码数据输出给选择部分660。

选择部分660将从图像编码部分640输入的部分图像的编码数据输出给代码输出部分670。

在步骤618(S618)中，模式确定部分610确定是否对所有的部分图像都完成了编码，并且当存在没有进行编码的部分图像时，处理返回到S602的处理，并对下一个两个字符的部分图像进行编码，而当对所有的分图像都进行了编码时，处理转到S614的处理。即，在模式确定部分610将所裁剪的两个字符的部分图像替换为字符串图像的图像模式，以对它们进行编码后，裁剪下一个两个字符的部分图像，并对其执行S600以及后续步骤的处理，并且在对与所裁剪的两个字符的部分图像中的单个字符相对应的部分图像进行编码后，对另一字符的部分图像以及与新裁剪的单个字符相对应的部分图像执行S600以及后续步骤的处理。

在步骤620(S620)中，词典编码部分650对从图像词典生成部分50输入的图像词典(包含相互关联的图像模式和索引)进行编码，并将图像词典的编码数据输出给代码输出部分670。

如上所述，本实施例的图像处理装置2通过使用字符识别处理的结果来执行图像词典的生成和编码，从而使得图像词典的生成和编码变得简易。此外，在该图像处理装置2中，由于基于字符串生成图像词典并将其应用于编码处理，所以可以实现高的编码效率(高的压缩率)。

此外，该图像处理装置2通过将属于同一字符图像组的字符图像相互进行比较，来校正字符图像的裁剪位置(字符图像的位置信息)，从而可以校正由于字符图像裁剪误差或字体差异而导致的字符图像偏差，并且可以以高的准确度来重现字符的编排。

接下来，将描述该实施例的改进示例。

在上述实施例中，图像词典生成部分50计算作为编码目标的整个输入图像中的字符串的出现频度，并根据所计算的出现频度来确定是否将字符串登记为图像模式。因此，图像词典生成部分50在裁剪了所有的字符图像之前，不能在图像词典中登记字符串图像的图像模式，并且编码部分60在完成图像词典之前，不能开始进行编码。

因此，在第一改进示例的图像词典生成部分50中，连续地生成图像词典，并且编码部分60根据连续生成的图像词典对输入图像进行编码。

具体地，在第一改进示例中，字符图像提取部分510从输入图像中连续地裁剪字符图像，并且一致确定部分530将连续裁剪的字符图像与所登记的图像模式进行比较以确定一致程度。

当在所登记的多个图像模式和新裁剪的多个字符图像(分别与单个字符相对应)之间的一致程度都等于或小于基准时，字符词典确定部分540将字符图像作为图像模式登记在图像词典中，否则字符词典确定部分540将具有最高一致程度的图像模式的索引作为编码目标输出给编码部分60。

字符串选择部分535将新裁剪的字符图像的字符代码的组合(包含新裁剪的字符的字符串)与前一次裁剪的字符代码的组合(前一字符串)进行比较，以确定这些字符串的一致长度，当确定一致长度等于或大于基准值(例如，“2”)时，字符串选择部分535选择该字符串作为要登记在图像词典中的字符串。字符串词典确定部分545将由字符串选择部分535选择的字符串的图像作为图像模式登记在图像词典中。通过在LZ编码等中应用的最长匹配串搜索来执行字符串的一致长度的确定。当选择了相同的字符串时，字符串词典确定部分545排除该字符串图像的重复登记。

索引分配部分560为待连续登记的图像模式提供索引。

编码部分60根据连续登记在图像词典中的图像模式，对从输入图像中连续裁剪的字符图像进行编码。

如上所述，在第一改进示例的图像处理装置2中，连续地生成图像词典，从而可以进行连续的编码。

接下来将描述第二改进示例。

由字符识别图标410进行的字符识别的准确度(确定性程度)在包含在输入图像中的多个字符图像之间可能有所不同。因此，即使根据字符识别的结果(字符代码)确定了相同的字符串，实际的字符图像也可能不同。

因此，第二改进示例的图像词典生成部分50根据字符识别的准确度对包含在输入图像中的字符串进行分类，并根据各个组中的字符串的出现频度来选择要登记在图像词典中的字符串。

图12表示对于字符识别的各种准确度而生成的图像词典。

如图12所示，第二改进示例的字符串选择部分535获得从字符识别部分410获得字符识别的准确度，并根据所获得的准确度对包含在输入图像中的字符串进行分类。该示例的字符串选择部分535根据准确度范围将字符串分类为具有“90％或更大准确度”的字符串、具有“70％或更大并小于90％的准确度”的字符串、以及具有“小于70％的准确度”的字符串。根据组成该字符串的字符的准确度来计算字符串的准确度，并且字符串的准确度例如是多个字符的准确度的平均值或者多个字符的准确度的乘积。

字符串选择部分535对由此分类的各个字符串组计算字符串的出现频度，并根据所计算的出现频度从各个组中选择要登记在图像词典中的字符串。

为了以低的准确度确定字符串组的图像模式，首先，字符串词典确定部分545将以高准确度为字符串组确定的图像模式与属于该字符串组(具有低准确度的字符图像组)的字符串图像进行比较，以确定它们是否相互一致，当它们相互一致时，排除重复登记，字符串词典确定部分禁止对基于该字符串图像的图像模式进行登记。

如上所述，第二改进示例的图像处理装置2可以通过对字符识别的各种准确度生成图像词典，来使字符识别失败对图像词典的影响最小。

Claims

1、一种图像词典生成装置，其包括：

信息获取单元，用于获得对输入图像进行的字符识别处理的结果；

字符串选择单元，用于根据由所述信息获取单元获得的字符识别的结果来选择所述输入图像中彼此相邻的字符串；

典型模式确定单元，用于根据由所述字符串选择单元选择的字符串的图像来确定组成所述输入图像的典型图像模式；以及

识别信息分配单元，用于向由所述典型模式确定单元确定的各个所确定的图像模式分配用于识别图像模式的识别信息。

2、根据权利要求1所述的图像词典生成装置，其中

所述字符串选择单元根据由所述信息获取单元获得的字符识别的结果来确定字符串的出现频度，并根据所确定的出现频度来选择字符串。

3、根据权利要求1所述的图像词典生成装置，还包括：

模式存储器，用于将单个字符图像存储为图像模式，

其中所述典型模式确定单元从所述模式存储器中读取组成由所述字符串选择单元选择的字符串的多个字符图像，并根据所读出的图像模式来确定字符串的图像模式。

4、根据权利要求2所述的图像词典生成装置，其中

所述信息获取单元至少获得各个字符图像的字符代码，作为字符识别处理的结果，并且

所述字符串选择单元根据由所述信息获取单元获得的字符代码，来确定字符串在所述输入图像中的出现频度。

5、根据权利要求3所述的图像词典生成装置，还包括：字符分类单元；

其中所述信息获取单元至少获得各个字符图像的字符代码，作为字符识别处理的结果；

所述字符分类单元根据由所述信息获取单元获得的字符代码，将包含在所述输入图像中的字符图像分类为多个字符图像组；并且

所述典型模式确定单元根据由所述字符分类单元分类为多个字符图像组的字符图像，来确定多个单个字符对应图像模式，并且将所确定的多个图像模式存储在模式存储器中。

6、根据权利要求1所述的图像词典生成装置，其中

所述信息获取单元获得表示所述输入图像中的字符图像的区域的字符区域信息，作为字符识别处理的结果；并且

所述字符串选择单元根据由所述信息获取单元获得的字符区域信息来选择所述输入图像中彼此相邻的字符串。

7、一种编码装置，其包括：

替换单元，用于根据将包含在输入图像中的字符图像和字符串图像与识别信息相关联的图像词典，将所述字符图像或者所述字符串图像替换为所述识别信息和字符区域信息，所述字符图像或所述字符串图像包含在所述输入图像中，所述识别信息与所述字符图像或者所述字符串图像相对应，所述字符区域信息表示所述字符图像或者所述字符串图像的区域；

代码输出单元，用于输出由替换单元替换的所述识别信息、所述字符区域信息，以及所述图像词典。

8、根据权利要求7所述的编码装置，还包括：

字符串选择单元，用于根据由所述信息获取单元获得的字符识别的结果，来选择所述输入图像中彼此相邻的字符串；

典型模式确定单元，用于根据由所述字符串选择单元选择的字符串的图像，来确定组成所述输入图像的典型图像模式；以及

识别信息分配单元，用于向由所述典型模式确定单元确定的各个图像模式分配用于识别图像模式的识别信息；

其中所述替换单元替换基于所述图像模式以及由所述识别信息分配单元为所述各个图像模式分配的识别信息图像词典，来替换所述字符图像或者字符串图像；并且

所述代码输出单元输出从所述输出单元输出的图像词典以及由所述替换单元替换的识别信息和字符区域信息。

9、一种计算机可读介质，其被构造用来存储数据文件，该数据文件包括：

第一图像词典数据，其包含与分别对应于单个字符的字符图像相关的数据以及用于识别该字符图像的第一识别信息，与字符图像相关的数据和所述第一识别信息相互关联；

第二图像词典数据，其包含与对应于字符串的字符串图像相关的数据以及用于识别该字符串图像的第二识别信息，与字符串图像相关的数据和所述第二识别信息相互关联；以及

编码数据，其包含字符图像或者字符串图像在整个图像中的出现位置以及与字符图像或者字符串图像相对应的识别信息，所述位置和所述识别信息相互关联。

10、一种图像词典生成方法，包括：

获得对输入图像进行的字符识别处理的结果；

根据所获得的字符识别的结果来选择所述输入图像中彼此相邻的字符串；

根据所选择的字符串的图像来确定组成所述输入图像的典型图像模式；以及

将用于识别图像模式的识别信息分配给所确定的图像模式。

11、一种计算机可读介质，其被构造用来存储用于操作图像词典生成装置中的计算机的指令集合，这些指令包括：

获得对输入图像进行的字符识别处理的结果；

为用于识别图像模式的识别信息提供所确定的图像模式。