CN101364267A

CN101364267A - 字符识别装置、字符识别方法及计算机产品

Info

Publication number: CN101364267A
Application number: CNA2008101082592A
Authority: CN
Inventors: 武部浩明; 藤本克仁
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2007-08-09
Filing date: 2008-06-05
Publication date: 2009-02-11
Anticipated expiration: 2028-06-05
Also published as: CN101364267B; JP5098504B2; US20090041361A1; JP2009043102A

Abstract

本发明公开了一种字符识别装置、字符识别方法及计算机产品，该字符识别装置包含哈希表注册单元和识别处理单元。哈希表注册单元创建哈希表，该哈希表将每个部分字符图像的特征表达为每个字符的区域。识别处理单元将输入图像划分为多个部分输入图像，并且计算每个部分输入图像的特征。识别处理单元在哈希表中查找具有与每个部分输入图像的特征相似的特征的部分字符图像。识别处理单元将多个部分输入图像之间的位置关系与多个部分字符图像之间的位置关系进行比较，以判定它们是否匹配，并识别出输入图像的每个区域中的字符。本发明能够以高准确度并高速识别出与任意形状的图案重叠的字符图像。

Description

字符识别装置、字符识别方法及计算机产品

技术领域

本发明涉及字符识别技术。

背景技术

字符识别以下述方式执行，即，以字典的形式事先存储每种字符类型(type)的字符图案及其特征，接着通过比较所存储的信息和需要识别的图像来获得相似度，并将具有最高相似度的字符类型作为字符识别的结果输出。

在从字符图案(character pattern)及其特征中识别字符类型的过程中，当需要识别的图像中的字符与其他字符或者标记相关连(in contact with)的时候，字符图案的形状受到影响，这会导致特征的计算错误，并且因此降低了识别的准确度。为了解决该问题，在公知的字符识别技术中，对相关连的多个图案进行划分以识别字符。

日本专利特许公开H6-111070号公开了一种现有技术，在该技术中，构成一条线(该线被作为每一个字符图案的断开线)的一对断开线端点从断开线端点的候选集中抽取出来，其中该断开线端点的候选集是从包括多个相关连的字符图案的字符串图案的外部和内部轮廓部分检测到的。接着基于断开线的所述两个端点之间的线连接而抽取字符图案。这样，即使当字符串彼此之间相互密切关连的时候，仍能够实现对字符的精确抽取。

日本专利特许公开2001-22889号公开了另外一种现有技术，在该技术中，例如书籍等列表形式的文档的字符识别采用与规则无关的字符字典和与规则有关的字符字典作为识别字典。判定在识别区域中的字符是否与规则有关，并根据判定的结果来选择用于识别字符的字典。这样，可以以高精确度来识别出书籍等中的字符。

然而，上述前一种现有技术仅能用于下述情况，即字符图案彼此相关连，或者特定形状与字符图案相关连(例如环形的字符串)。相似地，后一种现有技术仅能用于字符图案与规则有关的情况。

也就是说，采用上述现有技术，当与字符图案相关连的图案形状不清楚的时候，就难以识别该字符。因此，举例而言，为了借助计算机读取以手写的标记填写的应用表格或者调查问卷的内容，需要从字符与该标记重叠的图案中识别字符，其中该手写的标记包括字符串和数字。然而，因为用户手写的标记在形状上各种各样，并且该标记以各种方式与字符图案相关连，所以无法完全识别一个字符。

因此，需要这样一种技术，即，不论字符图案和标记之间的重叠形状如何，都能以高精确度识别出与任意形状的图案重叠的字符。

发明内容

本发明的目的在于，至少部分地解决现有技术中存在的问题。

根据本发明的一个方案，提供一种用于识别输入图像中的字符的字符识别装置。所述装置包括：第一划分单元，其将多个字符图像中的每个字符图像划分为多个部分字符图像，每个部分字符图像表示字符图像的一部分；存储单元，其用于存储查找表，所述查找表将每个部分字符图像的特征与所述字符图像中的多个部分字符图像之间的位置关系和所述字符图像的字符类型相关联；第二划分单元，其将所述输入图像划分为多个部分输入图像；计算单元，其计算每个部分输入图像的特征；查找单元，其在所述查找表中查找具有与所述计算单元计算出的特征相似的特征的部分字符图像；判定单元，针对每个字符类型，其对通过所述查找单元获得的多个部分字符图像计数，并判定所述多个部分字符图像之间的位置关系是否匹配所述多个部分输入图像之间的位置关系；抽取单元，当所述多个部分字符图像之间的位置关系与所述多个部分输入图像之间的位置关系相匹配时，抽取所述多个部分输入图像作为字符候选集；和识别单元，当所述字符候选集的多个部分输入图像的数目等于或者大于预定值时，将所述多个部分输入图像识别为由所述字符类型表示的字符的组成元素。

根据本发明的另外一个方案，提供一种识别输入图像中的字符的字符识别方法。所述方法包括以下步骤：首先，将多个字符图像中的每个字符图像划分为多个部分字符图像，每个部分字符图像表示字符图像的一部分；在查找表中存储每个部分字符图像的特征，所述特征与所述字符图像中的多个部分字符图像之间的位置关系和所述字符图像的字符类型相关联；其次，将输入图像划分为多个部分输入图像；计算每个部分输入图像的特征；在所述查找表中查找具有与计算出的所述特征相似的特征的部分字符图像；针对每个字符类型，对所述查找步骤中获得的多个部分字符图像计数；针对每个字符类型，判定所述多个部分字符图像之间的位置关系是否匹配所述多个部分输入图像之间的位置关系；当所述多个部分字符图像之间的位置关系与所述多个部分输入图像之间的位置关系相匹配时，抽取所述多个部分输入图像作为字符候选集；和当所述字符候选集的多个部分输入图像的数目等于或者大于预定值时，将所述多个部分输入图像识别为由字符类型表示的字符的组成元素。

根据本发明的另外一个方案，提供一种计算机可读记录介质，其中存储用于字符识别的计算机程序，所述计算机程序使得计算机执行以下步骤：首先，将多个字符图像中的每个字符图像划分为多个部分字符图像，每个部分字符图像表示字符图像的一部分；在查找表中存储每个部分字符图像的特征，所述特征与所述字符图像中的多个部分字符图像之间的位置关系和所述字符图像的字符类型相关联；其次，将输入图像划分为多个部分输入图像；计算每个部分输入图像的特征；在所述查找表中查找具有与计算出的所述特征相似的特征的部分字符图像；针对每个字符类型，对在所述查找步骤中获得的多个部分字符图像计数；针对每个字符类型，判定所述多个部分字符图像之间的位置关系是否匹配所述多个部分输入图像之间的位置关系；当所述多个部分字符图像之间的位置关系与所述多个部分输入图像之间的位置关系相匹配时，抽取所述多个部分输入图像作为字符候选集；和当所述字符候选集的多个部分输入图像的数目等于或者大于预定值时，将所述多个部分输入图像识别为由所述字符类型表示的字符的组成元素。

综上所述，根据本发明，可以以高准确度高速识别出与任意形状的图案重叠的字符图像。另外，能够轻易指定在输入图像中出现字符的区域。还有，能够轻易地检索到相似于部分输入图像特征的特征，这进一步提高了字符识别速度。

当与附图一起考虑的时候，通过阅读本发明的现有优选实施例的下述详细描述，本发明的上述和其他目的、特征、优点和技术特征以及工业特征将变得易于理解。

附图说明

图1是根据本发明实施例的字符识别装置的功能性框图；

图2是图1中所示的识别处理单元的功能性框图；

图3是用于解释图1中所示的哈希表注册单元的哈希表注册的示意图；

图4是解释输入图像的特征计算和识别处理单元的字符类型查找的示意图；

图5是解释对作为查找结果的每个字符类型的部分字符图像计数的示意图；

图6是解释对位置一致性判定单元的部分输入图像进行图示的示意图；

图7是解释节点间的路径连接的示意图；

图8是解释团集的抽取和评估的示意图；

图9是解释通过图2中所示的字符判定单元进行字符区域识别的示意图；

图10是表决结果数据的例子，位置一致性判定单元从图2中所示的字符种类查找单元获得的查找结果中产生该表决结果数据。

图11是位置一致性判定单元产生的图表数据的示例；

图12是哈希表注册处理的流程图；

图13是字符识别处理的流程图；

图14是解释创建哈希表时进行的规格化改型的示意图；

图15是解释一个字符图像的不同网格划分应用的示意图；

图16是解释基于(n，dx，dy)特征的识别处理的示意图；

图17是根据实施例的图像识别系统的示意图；

图18是执行计算机程序用于实现字符识别装置的计算机示意图。

具体实施方式

下面参考附图详细解释本发明的示例性实施例。

根据本发明的实施例，在没有将字符图案与其他图案分开的前提下，基于输入图像中的字符没有与字符图案重叠的部分而对该输入图像中的字符进行识别。举例而言，如图4所示，当一个标记被手写入输入图像的字符串“1.配偶者”之上，并且该标记与字符相连时，就难以抽取出每个字符。即使在这种情况下，字符串“1.配偶者”仍能从没有与标记重叠的部分的特征中识别出来。

对于这种字符识别而言，首先，将输入图像划分为多个部分输入图像，并且判定每个部分输入图像的特征对应于哪个字符的哪部分。当多个部分输入图像的位置关系与相应字符的位置关系相匹配的时候(其中每个部分输入图像与同一字符的一部分相似)，就判定这些部分输入图像是该字符的部分。

图1是根据本发明的实施例的字符识别装置1的功能性框图。字符识别装置1包括输入单元11、显示单元12、读取单元13、接口14、存储单元15和控制单元20.

输入单元11从操作者处接收操作输入，输入单元11可以是键盘等装置。显示单元12显示展示给操作者的输出，并且该显示单元可以是液晶显示器等装置。

读取单元13读取输入图像，并且该读取单元可以是扫描仪等装置。接口14连接到外部装置，并传送以及接收数据。

存储单元15存储用以运行字符识别装置1的各种数据和由该运行所产生的各种数据。在实例中，存储单元15存储用于显示每个字符种类(category)的局部特征的哈希表16。在这种情况下，字符种类意味着字符类型及字符名称。

控制单元20控制字符识别装置1，并且包含识别处理单元21和哈希表注册单元22。使用经由接口14获得的用于学习的字符图样，哈希表注册单元22创建哈希表16，并在存储单元15中注册哈希表。

识别处理单元21对来自读取单元13所读取的输入图像中的字符进行识别。图2是识别处理单元的功能性框图。识别处理单元21包含网格划分单元31、特征计算单元32、规格化单元(normalizing unit)33、字符种类查找单元34、位置一致性判定单元35和字符判定单元36。

网格划分单元31将输入图像划分为网格形状，并产生部分输入图像。特征计算单元32计算由网格划分单元31产生的部分输入图像的特征。规格化单元33将由特征计算单元32计算得到的特征规格化。

字符种类查找单元34在哈希表16中查找字符种类的部分字符图像，该字符种类中的特征相似于经规格化单元33规格化后的特征，该特征作为每个部分输入图像的关键。

位置一致性判定单元35对通过字符种类查找单元34获得的部分字符图像计数，并判定每个字符种类的多个部分字符图像的位置关系与输入图像中的多个部分输入图像的位置关系之间的一致性。也就是说，位置一致性判定单元35判定多个部分字符图像之间的位置关系是否与多个部分输入图像之间的位置关系相匹配。该位置一致性判定单元35接着将抽取与多个部分字符图像的位置关系一致的一组部分输入图像来作为字符候选集。

当由位置一致性判定单元35所抽取的字符候选集具有预定数目或更多的部分输入图像时，字符判定单元36判定由字符候选集拥有(hold)的部分输入图像是以字符类型示出的字符种类的构成元素，并且在显示单元12中显示该字符种类。

图3是解释由哈希表注册单元22执行的哈希表16注册的示意图。哈希表注册单元22经由接口14获得用于学习的字符图样，并将获得的字符图像划分成n×n的网格(例如n＝5)。使用通过划分而得的每个网格作为字符图像的部分字符图像，哈希表注册单元22计算每个网格(每个部分字符图像)的特征。

计算特征值可以使用多种方法。例如，可以使用权重方向编码柱状图。举例而言，可以参考“Handwritten KANJI and HIRAGANA CharacterRecognition Using Weighted Direction Index Histogram Method使用权重方向索引柱状图对手写日本汉字和平假名字符进行识别”，译自IEICE(D)-1987年7月第J70-D卷第7期第1390-1397页，并通过参考将其合并于此。从该权重方向编码柱状图中，可以获得具有与方向编码数目对应的多个维度的特征向量。例如，下面将介绍对四维特征向量的使用。

在图3中，以5×5的方式，哈希表注册单元22对字符图像“配”进行划分以作为学习用字符样本。每个经划分的网格被看作第i行第j列，并且每个网格也被识别为配(1，1)到配(5，5)。当基于此获得每个网格的特征向量的时候，配(1，1)的特征向量是(29，8，13，5)，配(1，2)的特征向量是(32，14，18，25)，而配(2，1)的特征向量是(12，2，4，37)。

当同一字符种类具有多个学习用字符样本的时候，通过将属于同一字符种类的学习用样本图像进行平均，哈希表注册单元22根据单个字符图像移除字符组件，从而获得字符种类本身的特征向量。

因此，可以针对一个字符种类而获得n×n网格特征向量。对每个字符种类计算出该网格特征向量。

接着，哈希表注册单元22将网格特征向量转化为哈希值，从而使得基于哈希值绘制(draw)字符种类的位置和网格成为可能。网格特征向量是与方向编码的数目相对应的多维向量，并且对区域进行规格化以采用从0到9的整数。其结果是，网格特征向量取值为十位方向编码的幂次(＝4)的数值(＝10,000)。

可以采用任意方式执行规格化操作，优选地，其涉及到将相似值变换为相同值。例如，优选地，通过将向量除以预定值来获得整数商，并且当商超过9的时候该商被强制替换为9。

在图3中，哈希表注册单元22将特征向量的每个维度值除以“4”来获得整数商。其结果是，配(1，1)的特征向量(29，8，13，5)被规格化处理为(7，2，3，3)，配(1，2)的特征向量(32，14，18，25)被规格化处理为(8，3，4，6)，而配(2，1)的特征向量(12，2，4，37)被规格化处理为(3，0，1，9)。

通过将规格化的网格特征向量值与字符种类名称相关联，并且与网格的位置(i，j)相关联，哈希表注册单元22注册哈希表16中经规格化的网格特征向量值。也就是说，当给出网格特征向量(va，vb，vc，vd)时，哈希表注册单元22将网格向量特征(va，vb，vc，vd)规格化，并且将它们转换为(Va，Vb，Vc，Vd)，从而获得H＝Va×1000+Vb×100+Vc×10+Vd，并且记录H的(字符种类名称，i，j)。

在图3中，具有规格化特征向量(7，2，3，3)的配(1，1)与哈希值(7233)相关联，具有规格化特征向量(8，3，4，6)的配(1，2)与哈希值(8346)相关联，而具有规格化特征向量(3，0，1，9)的配(2，1)与哈希值(3019)相关联。

通过对所有字符种类执行上述处理，哈希表注册单元22创建哈希表16，并且将哈希表16存储到存储单元15中。在图3中，配(1，1)、酸(1，1)、和王(3，2)相互关联，并被注册在哈希值(7233)中。在哈希值(3019)中注册相互关联的配(2，1)、酸(2，1)和祖(1，3)。在哈希值(8346)中注册相互关联的配(1，2)、祖(3，2)和酉(1，3)。

下面解释识别处理单元21的操作。图4是解释由识别处理单元21执行的输入图像的特征计算和字符种类查找的示意图。当读取单元13将图像输入到识别处理单元21的时候，如图4所示，网格划分单元31将输入图像划分成多个网格。

在这种情况下，基于在输入图像中以n×n划分的一个字符尺寸来设置网格尺寸。例如，当输入图像的分辨率是每一英寸400点(dpi)的时候，并且当网格的尺寸被设置为在垂直方向和横向方向的每个方向上的八个像素的时候，对于在垂直方向和横向方向的每个方向上具有40个像素的平均字符尺寸而言，一个字符可以分成对应于5×5尺寸的多个网格。对于其他分辨率的图像而言，网格尺寸被设置为与分辨率成比例。当可以识别出外围字符的尺寸的时候，可以基于外围字符的尺寸来设置网格尺寸。

对于通过划分输入图像所获得的网格而言，网格划分单元31在存储单元15中存储有关信息，该信息是指从输入图像的哪个位置来获得每个网格(部分输入图像)。

接着，特征计算单元32获得每个切割(cut-out)出来的网格的特征向量，在计算特征向量的过程中，正如用于创建哈希表的柱状图一样，还要使用权重方向编码柱状图。在图4中，所获得的从输入图像中切割出来的网格m43的特征向量为(13，1，5，62)，而同样获得的网格m104的特征向量为(35，7，3，4)。

用相似于创建哈希表时的方式，规格化单元33对由特征计算单元32计算出的每个特征向量进行规格化。例如，规格化单元33通过将向量除以预定值来获得整数商，并且在该商值超过9的时候，用9来强制替换该商。

在图4中，规格化单元33通过将特征向量的每个维数值除以“4”来获得整数商。其结果是，将网格m43的特征向量(13，1，5，62)规格化为(3，0，1，9)，并且将网格m104的特征向量(36，7，3，4)规格化为(9，2，1，1)。

字符种类查找单元34在哈希表16中查找该字符种类的部分字符图像，该字符种类的特征与作为每个部分输入图像的关键的规格化特征向量相似。

其结果是，在图4中，由于部分字符图像与网格m43相似，因此能获得与哈希值(3019)绑定的部分字符图像，也就是说，字符种类“配”的(2，1)，字符种类“酸”的(2，1)以及字符种类“祖”的(1，3)。相似地，由于部分字符图像与网格m104相似，作为查找结果，因此能获得与哈希值(9211)绑定的部分字符图像，也就是说，字符种类“祖”的(4，4)，和字符种类“酸”的(5，3)。

字符种类查找单元34查找从输入图像切割出来的所有网格的部分字符图像，也就是说，与部分输入图像相似的部分字符图像。在此之后，位置一致性判定单元35对作为查找结果而获得的部分字符图像计数。

图5是解释对作为查找结果的每个字符类型的部分字符图像进行计数的示意图。在图5中，网格m43和m104的查找结果被表决(vote)为字符种类的相应位置，并予以计数。具体地，对于字符种类“配”，网格m43被表决为位置(2，1)，并且网格m104被表决为位置(5，3)。相似地，网格m43被表决为字符种类“酸”的位置(2，1)，网格m43被表决为字符种类“祖”的位置(1，3)，而网格m104被表决为字符种类“祖”的位置(4，4)。

接着，对于被表决为字符种类的部分输入图像而言，位置一致性判定单元35将输入图像的位置关系与字符类型的位置关系进行比较，并且判定其一致性。具体地，使用被表决为同一字符种类位置的部分输入图像作为节点，通过在保持了字符种类的网格之间的关系和保持了输入图像的网格之间的关系的节点之间进行路径连接，该位置一致性判定单元35创建图表。

图6是解释位置一致性判定单元35图示部分输入图像的示意图。在图6中，从输入图像中切割出来的所有部分输入图像包括：网格m21、网格m43、网格m104、网格m105、网格m108，所有部分输入图像都被表决为字符种类“配”。

网格m21被表决为字符种类“配”的(1，1)。相似地，网格m43被表决为(2，1)，网格m44被表决为(2，2)，网格m104被表决为(5，4)，网格m105被表决为(5，5)，而网格m108被表决为(4，4)。

基于节点之间的位置关系，位置一致性判定单元35使用注册到“配”的所有部分输入图像绘制路径，也就是说，使用网格m21、网格m43、网格m44、网格m104、网格m105和网格m108作为节点。

图7是解释连接节点间的路径的示意图。参考图7对节点的连接加以解释，将网格m43、网格m105和网格m108之间的位置关系作为示例。

首先考虑网格m43和网格m105。在输入图像中，网格m105置于网格m43的右下方。在字符种类中，网格m105也被置于网格m43的右下方。以这种方式，输入图像中的网格m43和网格m105之间的相对位置关系与字符种类中的网格m43和网格m105之间的相对位置关系一致，也就是说，它们的位置关系一致。因此，绘制出在网格m43和网格m105之间的路径(参见图6)。

接着考虑网格m105和网格m108。在输入图像中，网格m108位于与网格m105的相同高度的右方。另一方面，在字符种类中，网格ml08位于网格ml05的左上方。如上所述，输入图像中的网格m105和网格m108之间的相对位置关系与字符种类中网格105和网格m108之间的相对位置关系并不一致。因此，不能绘制出网格m105和网格m108之间的路径(参见图6)。

接着考虑网格m43和网格m108。在输入图像中，网格m108位于网格m43的右下方。在字符种类中，网格m108也位于网格m43的右下方。以这种方式，输入图像中的网格m43和网格m108之间的相对位置关系与字符种类中的网格m43和网格m108之间的相对位置关系一致。因此，绘制出网格m43和网格m108之间的路径(参见图6)。

对于每个字符种类，位置一致性判定单元35检查其位置关系是否符合所有被表决的网格之间的两个关系，并且创建图表。在此之后，位置一致性判定单元35从图表中抽取团集(clique)。该团集对应于一组部分输入图像并且成为输入图像中的字符候选集，其中所述部分输入图像的位置关系与部分字符图像的位置关系相匹配。可以采用多种算法从图表中抽取团集(例如C.Bron以及J.Kerbosch的算法457，Finding a1l cliques of an undirected graph[H]从未经指向的图中发现所有团集.Comm.ACM.16(9)，1973年9月)。

通过评估由位置一致性判定单元35所抽取的团集，字符判定单元36识别字符种类所匹配的识别区域。特别地，当团集上的节点数目等于或者大于一阈值的时候，在确认关系是正确的之后，字符判定单元36判定该字符种类出现在对应该节点的区域中。

图8是解释团集的抽取和评估的示意图。如图8所示，当从具有网格m21、网格m43、网格m44、网格m104、网格m105以及网格m108的图表G1中抽取团集的时候，获得具有五个节点的团集G2：网格21、网格43、网格44、网格104以及网格105，并获得具有四个节点的团集G3：网格21、网格43、网格44以及网格m108。

当判定阈值是5的时候，也就是说，团集G2具有大于或者等于阈值的节点数目，字符判定单元36判定，对应于团集G2节点的输入图像中的区域是出现字符“配”的字符区域，换句话说，团集G3的节点数目小于阈值，因此字符判定单元36判定团集G3的节点不表示字符“配”。

更为具体地，对于具有等于或者多于阈值的节点的团集而言，字符判定单元36获得对应于每个节点的部分输入图像的外接矩形，并且将此外接矩形识别为字符区域。

图9是解释字符判定单元36对字符区域进行识别的示意图。在图9中，字符判定单元36判定组成团集G2的网格m21、网格m43、网格m104和网格m105的外接矩形是字符区域A1，并且识别出在此字符区域A1中出现的字符“配”。

当多个同一字符出现在输入图像中的时候，字符判定单元36从相同种类的所有字符中创建一个图表。此后，从图表中抽取多个团集，其中每个团集具有超过阈值的节点数目，且每个团集相互组成输入图像中的不同的字符区域。

上面解释了处理单元的操作，其使用概念图(conceptual drawing)使得字符种类中的输入图像的位置关系变得清楚。以适于在装置中进行处理的格式，在存储单元15中存储每个处理中实际生成和使用的数据。

图10是位置一致性判定单元35从字符种类查找单元34获得的查找结果中产生的表决结果数据(vote result data)的实例。正如前面结合图5所描述的，表决结果数据作为计数结果由位置一致性判定单元35获得，并且该表决结果数据以表格的形式保存数据，该表格具有字符种类、种类内位置和输入图像网格三项内容。

图11是位置一致性判定单元35生成的图表数据的示例。在图表所保存的节点之间，当路径被连接的时候，该图表数据设为数值“1”；而当路径未连接的时候，将数据以数值“0”的表格形式保存。

图12是字符识别装置1执行的哈希表注册过程的流程图。如图12所示，经由接口14，哈希表注册单元22接收每个字符种类的多组样本字符图像数据，如步骤S101所示。

哈希表注册单元22将样本字符图像数据划分为网格，如步骤S102所示，并且计算各个网格(即各个部分字符图像)的特征向量，如步骤S103所示。

在此之后，哈希表注册单元22对该字符种类的每个网格位置的特征向量进行平均，如步骤S104所示，并且将平均后的特征向量规格化，如步骤S105所示。哈希表注册单元22在哈希表中注册与字符种类关联的规格化特征向量和网格位置，如步骤S106所示，接着该处理过程结束。哈希表注册单元22对每个字符种类执行上述处理，以创建哈希表。

图13是字符识别处理的流程图。如图13所示，网格划分单元31将经由读取单元13读取的输入图像划分为多个网格，如步骤S201所示。接着，特征计算单元32计算各个网格(部分输入图像)的特征向量，如步骤S202所示。规格化单元33将每个特征向量规格化，如步骤S203所示。字符种类查找单元34在哈希表中查找作为每个网格的关键的规格化特征向量，如步骤S204所示。

基于查找结果，位置一致性判定单元35对每个字符类型的特征向量进行表决，如步骤S205所示，并且创建具有输入图像的网格(部分输入图像)的图表，该图表具有被表决为同一字符种类的输入图像的网格作为节点，如步骤S206所示。在创建图像之后，如上所述，通过比较与输入图像的每个节点相对应的部分图像区域的位置关系和字符种类中的位置关系，获得节点之间的路径。

位置一致性判定单元35从每个字符种类的图表中抽取团集，如步骤S207所示。字符判定单元36判定当团集的节点数目超过阈值的时候，相应的字符种类就出现在所述节点所占据的区域中，如步骤S208所示，并且处理过程结束。

下面解释对于哈希表注册和字符识别的改型。在查找部分字符图像的时候，该部分字符图像的特征相似于部分输入图像的特征，可从部分字符图像的特征向量之间的距离以及部分字符图像的特征向量之间的距离计算出相似度，并且当相似度等于或者大于阈值的时候，判定出所述向量彼此相似。然而，当通过测量向量之间的距离来查找相似度组合的时候，该计算需要占用时间。因此，字符识别装置1将所述部分字符图像的特征向量转换为哈希值，并且从哈希值中获得字符种类的位置和网格，从而提高识别的处理性能。

具体地，在从特征向量中生成哈希值的同时，通过规格化相似度值以变成相同值，字符识别装置1简化了相似度的计算。在上述实例中，通过将特征向量的每个维数值除以预定值来获得整数商。当该商超过9的时候，商值被强制地替换为9。上述方法的改型在下面加以解释。

图14是解释在创建哈希表时规格化操作的改型的示意图。在图14中，预先判定整数a和整数b(a>b)，并且对于四维向量的数值(x1，x2，x3，x4)获得(xi±b)/a的整数商。当该商超过9的时候，商被强制地替换为9。

举例而言，假设字符种类“配”的(2，1)的特征向量是(12，2，4，37)，并且a＝4以及b＝1。作为x1的规格化数值，分别可获得(12+1)/4＝3和(12-1)/4＝2；作为x2的规格化数值，分别可获得(2+1)/4＝0和(2-1)/4＝0；作为x3的规格化数值，分别可获得(4+1)/4＝1和(4-1)/4＝0；以及作为x4的规格化数值，分别可获得(37+1)/4＝9和(37-1)/4＝9。从上述过程即可获得下述四个组合(3，0，0，9)、(3，0，1，9)、(4，0，0，9)、和(4，0，1，9)。在这种情况下，对应于字符种类“配”的(2，1)，在哈希表中注册特征向量的四种组合。

当哈希值具有对应于特定特征向量的宽度时，并且当通过将多个哈希值与字符种类和网格位置的组合相关联以在哈希表中注册这些哈希值时，可以获得与下面情形相似的效果，即，当在相似度比较中的阈值较低时，可以获得具有较低相似度的特征向量作为查找结果。

在对样本字符图像或者输入图像进行网格划分时，网格的特征向量值根据网格位置而改变。因此，在创建哈希表的时候，考虑到网格的轻微移动，优选对样本字符的网格特征向量进行多重注册。使用一个网格足够用来计算网格特征向量。相似地，在涉及网格尺寸时，考虑到其尺寸的不同，也要对字符的网格特征向量进行多重注册。

图15是解释将不同的网格划分应用到一个字符图像中的示意图。在图15中，在以n×n的方式划分字符图像的情况下，字符图像被划分为n＝4、5和6的三种网格尺寸。此外，对于每种划分的尺寸而言，同样也可以获得分别在x方向和y方向偏移几个像素的网格的特征值。

用分割数n对在x方向和y方向上没有偏移的网格进行划分，因此而获得的特征向量被设定为字符种类的(n，0，0)特征。用分割数n对x方向和y方向上有偏移的网格进行划分，因此而获得的特征向量被设定为字符种类的(n，dx，dy)特征。对于dx和dy而言，当两个值被同等地设定为将网格划分为三个的时候，可以设定9个特征，包括(n，0，0)特征、(n，0，1)特征、(n，0，2)特征、(n，1，0)特征、(n，1，1)特征、(n，1，2)特征、(n，2，0)特征、(n，2，1)特征和(n，2，2)特征。当一个网格的一侧具有六个像素的时候，通过每次偏移两个像素，该网格被同等地划分为三个。

以这种方式，可以获得27个(n，dx，dy)特征(n＝4，5，6；dx＝0，1，2；dy＝0，1，2)，并将其注册到哈希表中。通过将网格视为矩阵的方式，基于行号i、列号i以及特征向量(v1，v2，v3，v4)，特征值被表述为(n，dx，dy)-(i，j)-(v1，v2，v3，v4)。通过将(字符种类名称，n，dx，dy，i，j)与从特征向量(v1，v2，v3，v4)中计算得到的哈希值H相关联的方式，可以注册特征向量。

在将所得到的(n，dx，dy)特征注册到哈希表之后的识别处理过程中，获得具有不同网格尺寸和不同网格位置的多个字符图像作为查找结果。因此，通过将各个查找结果映射到字符种类，使得其位置关系一致。

图16是解释基于(n，dx，dy)特征的识别处理的示意图。在图16中，对应于与输入图像上的网格mα相关的(4，0，0)特征和(5，0，0)特征，表示出部分字符图像；并且对应于与输入图像上的网格mβ相关的(4，0，1)特征，表示出部分字符图像。在该情况下，当各个部分字符图像的位置被映射到字符种类上的时候，对于网格mα而言，可以获得作为(4，0，0)的映射图像的mα′，并且可以获得作为(5，0，0)的映射图像的mα＂。相似地，可以获得网格mβ、mβ′以作为(4，0，1)的映射图像。

即使当以这种方式一起表示具有不同网格划分尺寸和不同网格划分位置的字符向量时，通过将字符图像映射到字符种类，仍可评估相互的位置关系。当从一个部分输入图像mα中获得多个映射图像mα′和mα＂时，各个映射图像被处理成单独的节点。

图17是根据实施例的图像识别系统100的示意图。该图像识别系统100被连接到扫描仪101，并获得扫描仪101所读取的图像数据D1。该图像数据D1是应用表格或者调查问卷，在该应用表格或者调查问卷中，字符串和数字在选项中以手写方式直接标出。手写的标记与字符图案重叠。

图像识别系统100包括字符识别装置1、差异图像生成单元(differential-image generating unit)102和图像分析单元103。如上所述，字符识别装置1识别图像数据D1中的字符，并且输出图像数据D2作为识别结果。图像数据D2代表哪个字符出现在图像内的哪个位置上。

差异图像生成单元102在图像数据D1和图像数据D2之间进行差异区分，因此而生成图像数据D3。图像数据D1具有与字符重叠的手写的标记，而图像数据D2仅包含字符。因此，作为这种差异，图像数据D3就变成具有抽取出来的手写的标记的图像。

从图像数据D3示出的手写的标记的位置和图像数据D2示出的字符及其位置中，图像分析单元103输出究竟哪种可选择的选项被选中。在图17中，图像分析单元103能够输出分析结果数据D4，该分析结果数据D4能够表达图像数据D1表示对“1.配偶者”的选择。

如上所述，在字符识别装置1中，哈希表注册单元22创建哈希表16，该哈希表16表达作为每个字符种类的局部区域的部分输入图像的特征。识别处理单元21将输入图像划分为具有部分输入图像的网格，计算每个部分输入图像的特征，在哈希表中检索其特征与每个部分输入图像的特征相似的部分字符图像，将该部分输入图像的位置关系与部分字符图像的位置关系加以比较，评估其一致性，并且识别出哪个字符出现在输入图像的哪个区域中。

因此，在不用将字符图案与输入图像中的字符的其他图案分开的情况下，字符识别装置1可以利用没有与字符图案重叠的部分来识别字符图案，而不用管与字符图案相接触的除字符之外的图案形状如何，并且也不用管接触的方式如何。字符识别装置1将图像划分为多个网格，获得每个网格的相似度，并且从所述网格的位置之间的一致性获得整体相似度，从而识别该字符。因此，字符识别装置1能够识别该字符，而不必从图像中切割字符单元中的字符区域。

举例而言，如上所述，在从一个字符切换到另一个字符时，由哈希表注册单元22执行哈希表注册，并且由识别处理单元21执行字符识别。可选择地，基于另一个装置创建的哈希表则仅能执行字符识别。

也可以采用任意方式执行下述操作，所述操作例如是计算部分输入图像和部分字符图像的特征，查找具有相似特征的字符种类，以及判定部分输入图像和部分字符图像之间的位置关系的一致性。举例而言，在上述实施例中，在节点间绘制路径的时候，可以基于网格间的相对方向而判定位置关系的一致性。可选择地，网格间的距离也可以被用作位置关系一致性的判定标准。

如上所述的字符识别装置1采用硬件的方式，然而，其也可以采用软件的方式实现。换句话说，可以在计算机上执行计算机程序(此后称为“字符识别程序”)以实现与字符识别装置1相同的功能。下面将对这种计算机进行解释。

图18是执行字符识别程序的计算机40的示意图。计算机40包括输入装置41、显示装置42、读取装置43、接口44、中央处理单元(CPU)45、只读存储器(ROM)46、随机存取存储器(RAM)47和硬盘驱动器(HDD)48，上述装置经由总线49相互连接。输入装置41对应于输入单元11，显示装置42对应于显示单元12，而读取装置43以及接口44对应于读取单元13以及接口14.

只读存储器46预先存储计算机程序(此后称为“识别处理程序”)51和计算机程序(此后称为“哈希表注册程序”)52，所述计算机程序分别实现与识别处理单元21和哈希表注册单元22相同的功能。

中央处理器45从只读存储器46中读取识别处理程序51和哈希表注册程序52。举例而言，在图18中，中央处理器45从只读存储器46中读取识别处理程序51，以执行识别处理过程54，并且中央处理器45能够实现与识别处理单元21相同的功能。

如图18所示，在硬盘驱动器48中存储哈希表数据53。中央处理器45读取哈希表数据53，并且将该数据加载到随机存取存储器47以实现上述哈希表16。

识别处理程序51和哈希表注册程序52并非一定要预先存储到只读存储器46中。每个程序可以被存储到便携式物理介质或者固定式物理介质，该便携式物理介质例如为软驱(FD)、光盘只读存储器(CD-ROM)、磁性光(MO)盘、数字视频光盘(DVD)、光磁盘以及集成电路(IC)卡，该固定式物理介质例如为计算机40内部的或者计算机40外部的硬盘驱动器(HDD)。每个程序也可以存储在另外一台计算机(或者服务器)上，其中该另外一台计算机(或者服务器)经由例如公用线路、互联网、局域网(LAN)以及广域网(WAN)连接到计算机40，从而计算机40可以从该另一个计算机处下载所述程序。

如上所述，根据本发明的实施例，可以以高准确度并高速识别出与任意形状的图案重叠的字符图像。另外，能够轻易指定在输入图像中出现字符的区域。还有，能够轻易地检索到与部分输入图像特征相似的特征，这样就进一步提高了字符识别速度。

尽管上面参照具体实施例对本发明进行了完整和清楚地公开，但是所附的权利要求并不因此受到限制，而是被解释为其能够体现所有的修改和替代性结构，上述修改和替代性结构对于本领域技术人员而言完全落入此处提出的基本教导的范围之内。

Claims

1、一种计算机可读记录介质，其中存储用于字符识别的计算机程序，所述计算机程序使得计算机执行以下步骤：

首先，将多个字符图像中的每个字符图像划分为多个部分字符图像，每个部分字符图像表示字符图像的一部分；

在查找表中存储每个部分字符图像的特征，所述特征与所述字符图像中的多个部分字符图像之间的位置关系和所述字符图像的字符类型相关联；

其次，将输入图像划分为多个部分输入图像；

计算每个部分输入图像的特征；

在所述查找表中查找具有与计算出的所述特征相似的特征的部分字符图像；

针对每个字符类型，对在所述查找步骤中获得的多个部分字符图像计数；

针对每个字符类型，判定所述多个部分字符图像之间的位置关系是否匹配所述多个部分输入图像之间的位置关系；

当所述多个部分字符图像之间的位置关系与所述多个部分输入图像之间的位置关系相匹配时，抽取所述多个部分输入图像作为字符候选集；和

当所述字符候选集的多个部分输入图像的数目等于或者大于预定值时，将所述多个部分输入图像识别为由所述字符类型表示的字符的组成元素。

2、如权利要求1所述的计算机可读记录介质，其中所述判定步骤包括：

在所述多个部分输入图像中，将与同一字符类型的部分字符图像相似的部分输入图像设定为节点；

通过连接下述节点来创建图表，即，所述节点具有与对应于所述节点的多个部分字符图像之间的相对位置关系相匹配的相对位置关系；和

抽取所述图表的团集作为所述字符候选集。

3、如权利要求1所述的计算机可读记录介质，其中所述识别步骤包括，当所述字符候选集的多个部分输入图像的数目等于或者大于预定值时，获得外接于一组所述部分输入图像的一矩形，并识别出在所述矩形中出现的字符，所述字符由所述字符类型表示。

4、如权利要求1所述的计算机可读记录介质，其中

所述首先执行的划分步骤包括将一个字符图像划分为多个部分字符图像，所述多个部分字符图像具有至少一个不同的尺寸和不同的位置关系，和

在所述查找表中存储每个部分字符图像的特征，所述特征与所述字符图像中的多个部分字符图像之间的位置关系和所述字符图像的字符类型相关联。

5、如权利要求1所述的计算机可读记录介质，其中所述查找表将多个相似特征与一个所述部分字符图像相关联，并在所述查找表中存储与所述字符图像中的多个部分字符图像之间的位置关系和字符图像的字符类型相关联的多个特征的每个特征。

6、一种识别输入图像中的字符的字符识别装置，所述装置包括：

第一划分单元，其将多个字符图像中的每个字符图像划分为多个部分字符图像，每个部分字符图像表示字符图像的一部分；

存储单元，其用于存储查找表，所述查找表将每个部分字符图像的特征与所述字符图像中的多个部分字符图像之间的位置关系和所述字符图像的字符类型相关联；

第二划分单元，其将所述输入图像划分为多个部分输入图像；

计算单元，其计算每个部分输入图像的特征；

查找单元，其在所述查找表中查找具有与所述计算单元计算出的特征相似的特征的部分字符图像；

判定单元，针对每个字符类型，其对通过所述查找单元获得的多个部分字符图像计数，并判定所述多个部分字符图像之间的位置关系是否匹配所述多个部分输入图像之间的位置关系；

抽取单元，当所述多个部分字符图像之间的位置关系与所述多个部分输入图像之间的位置关系相匹配时，抽取所述多个部分输入图像作为字符候选集；和

识别单元，当所述字符候选集的多个部分输入图像的数目等于或者大于预定值时，将所述多个部分输入图像识别为由所述字符类型表示的字符的组成元素。

7、如权利要求6所述的字符识别装置，其中在所述多个部分输入图像中，所述判定单元将与同一字符类型的部分字符图像相似的部分输入图像设定为节点，所述判定单元通过连接下述节点来创建图表，即，所述节点具有与对应于所述节点的多个部分字符图像之间的相对位置关系相匹配的相对位置关系，并且所述判定单元抽取所述图表的团集作为所述字符候选集。

8、如权利要求6所述的字符识别装置，其中当所述字符候选集的多个部分输入图像的数目等于或者大于预定值的时候，所述识别单元获得外接于一组所述部分输入图像的一矩形，并识别出在所述矩形中出现的字符，所述字符由所述字符类型表示。

9、如权利要求6所述的字符识别装置，其中

所述第一划分单元将一个字符图像划分为多个部分字符图像，所述多个部分字符图像具有至少一个不同的尺寸和不同的位置关系，和

在所述查找表中存储每个部分字符图像的特征，所述特征与所述字符图像中的多个部分字符图像类型之间的位置关系和所述字符图像的字符类型相关联。

10、如权利要求6所述的字符识别装置，其中所述查找表将多个相似特征与一个所述部分字符图像相关联，并在所述查找表中存储与所述字符图像中的多个部分字符图像类型之间的位置关系和所述字符图像的字符类型相关联的多个特征中的每个特征。

11、一种识别输入图像中的字符的字符识别方法，所述方法包括以下步骤：

在查找表中存储每个部分字符图像的特征，所述特征与所述字符图像中的多个部分字符图像类型之间的位置关系和所述字符图像的字符类型相关联；

其次，将输入图像划分为多个部分输入图像；

计算每个部分输入图像的特征；

针对每个字符类型，对所述查找步骤中获得的多个部分字符图像计数；

当所述字符候选集的多个部分输入图像的数目等于或者大于预定值时，将所述多个部分输入图像识别为由字符类型表示的字符的组成元素。

12、如权利要求11所述的字符识别方法，其中所述判定步骤包括：

在所述多个部分输入图像中，将与同一字符类型的部分字符图像相似的部分输入图像设定成节点；

抽取所述图表的团集作为所述字符候选集。

13、如权利要求11所述的字符识别方法，其中所述识别步骤包括，当所述字符候选集的多个部分输入图像的数目等于或者大于预定值时，获得外接于一组所述部分输入图像的矩形，并识别出在所述矩形中出现的字符，所述字符由所述字符类型表示。

14、如权利要求11所述的字符识别方法，其中

15、如权利要求11所述的字符识别方法，其中所述查找表将多个相似特征与一个所述部分字符图像相关联，并在所述查找表中存储与所述字符图像中的多个部分字符图像类型之间的位置关系和所述字符图像的字符类型相关联的多个特征中的每个特征。