CN1291756A

CN1291756A - 字符提取方法

Info

Publication number: CN1291756A
Application number: CN00121947A
Authority: CN
Inventors: 赤木琢磨
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 1999-07-30
Filing date: 2000-07-26
Publication date: 2001-04-18
Anticipated expiration: 2020-07-26
Also published as: EP1073002B1; EP1073002A2; KR20010015025A; JP4392907B2; KR100383858B1; DE60024535D1; DE60024535T2; EP1073002A3; CN1192324C; JP2001043313A

Abstract

在根据输入字符图像的明暗图像进行字符识别的字符识别设备中,至少利用像素的密度值将输入的字符图像的明暗图像分离成字符区域和背景区域,然后至少利用像素的密度值将上述字符区域再次分离成两个以上区域,并且根据此次重分离获得的区域信息,将多个字符分离成单个字符。

Description

字符提取方法

本发明涉及一种用于字符识别设备的字符提取方法，该方法可以一次将相连字符提取为单个字符，而字符识别设备是根据例如输入的明暗字符图像来识别字符的。

通常，广义上将字符识别技术分为字符图像输入、字符线提取、字符提取和字符识别。

通常，对输入的字符图像进行二元化处理后再提取相连字符。输入的字符图像被划分为字符区域和背景区域。此时，将多个字符以相连的状态提取到一个字符区域。原有技术根据相连字符的形状获取结构上的分离点和分析出来的分离点，分离相连字符。简而言之，当相连字符的形状具有类似山谷的凹痕时，通过将凹痕作为连接点而将一个字符区域分离成单个字符。

但是，对相连字符连接点形状进行处理时，需要考虑各种图案，而采用原有技术可以分离的图案仅限于这些图案中的少数几种特殊形状。

通常，如果是手写字符的文档图像，那么在提取相连字符时，对于相连字符的大部分来讲，输入文档图像中的字符在文档第一次输入时就已经相连。

相反，如果是打印类型的文献图像，对于相连字符来说，当提取字符时发生问题的主要原因不是因为它们实际上是相连的，而是由于扫描仪(字符图像输入设备)的分辨率低和当二元化处理时二化元的失败。

因此，如果回到明暗图像，即二元化处理后的输入字符图像，那么检测字符之间的相连点要相对容易些。

但是，如果只是简单使用明暗图像，问题会变得更加复杂，包括指定字符区域、处理速度延迟，以及造成诸如错误判断字符位置等严重后果，并且使得性能更加恶化。

因此，本发明的一个目的是提供一种字符提取方法，该方法能够高度精确和有效地找到并分离相连字符，而从形状上则很难找到这些相连字符。

根据本发明，为根据输入的字符图像进行字符识别的字符识别设备提供字符提取方法，该方法包括将输入的字符图像分离成字符区域和背景区域的第一步；利用字符区域中字符图像的像素密度值将第一步分离得到的字符区域分离成两个以上区域的第二步；根据第二步获取的区域信息将字符区域分离成一个一个字符的第三步。

图1是一张放大的视图，该视图是用扫描仪输入前的输入文档图像的示例；

图2是对通过划分成网格输入文档图像的状态进行说明的框图；

图3是显示扫描仪输入的明暗图像的示例的图；

图4是显示二元化图像的示例的框图，该二元化图像是对图3所示明暗图像进行二元化处理后得到的；

图5是示意性显示字符提取设备结构的框图，在该字符提取设备中应用了本发明的字符提取方法；

图6是对本发明字符提取方法进行解释的流程图；

图7是显示由第一个二元化部件二元化处理后的第一个二元化图像的示例的图；

图8是显示由第二个二元化部件二元化处理后的第二个二元化图像的示例的框图；

图9是对字符分离部件中用来确定相连字符位置的方法进行解释的流程图。

优选实施例的详细描述

下面将参照附图对本发明的优选实施例进行描述。

另外，在下面的描述中假定像素的密度值越小，像素越黑；密度值越大，像素越白。(原文可能有误)

图1是一张放大的用扫描仪输入前的输入文档图像。图形“1”和“2”书写时彼此靠得很近；但是由于两者之间具有空白间隔，所以两者并不相连。现在，让我们考虑用扫描仪读取这种文档图像的情况。

扫描仪将文档图像划分成如图2所示的网格，获取每一矩形的密度平均值，并将此平均密度值作为矩形对应的各像素密度而输入。图3显示的是由扫描仪输入的明暗图像的示例。在此例中，明暗图像是一张纵向6点横向12点的图像。

在图3中，着黑色的 a部分代表具有最大密度的像素，用交叉斜线所示的 b部分代表密度比像素 a要小的像素，用粗斜线所示的 c部分代表密度比像素 b要小的像素，用细斜线所示的 d部分代表密度比像素 c要小的像素。

当字符之间的空白间隔宽度小于扫描仪所能接收的矩形时，即使小密度的像素位于图3所示的空白间隔部分，也可以获取这些像素。因此，当图像二元化后，得到具有图4所示两个相连字符形状的二元化图像。

在传统的字符提取方法中，只使用图4所示二元化图像分离相连字符。

但是，看看图3所示明暗图像，字符轮廓的密度要大于字符中央部分的密度。字符相连部分也不例外，并且空白间隔所对应的像素密度要大于字符部分的密度。

因此，在本发明中，可以高效地找到具有高密度的部分，并且通过确定相连字符部分，可以使某一字符区域分离成单个字符。这将在下面进行详细解释。

图5是显示字符提取设备结构的框图，在该字符提取设备中应用了本发明的字符提取方法。在图5中，作为字符图像输入装置的扫描仪1采用光学方法读取输入文档图像，并且输入如图3所示的明暗图像。扫描仪1输入的明暗图像临时存储在第一图像存储器2中。

第一二元化部件3根据例如已知的Ohtsu二元化方法(参考“根据判别和最小平方标准的自动阈值选择方法”，Nobuyuki Ohtsu著，Shingakuron(D)，J63-D卷，第4期，第439-356页，1980年)对临时存储在第一图像存储器2中的明暗图像进行二元化处理，并且输出如图4所示的第一个二元化图像。

另外，在美国专利第5，784，500号(1988年7月21日)中公开了用于明暗图像的二元化方法。

由第一二元化部件3输出的第一二元化图像临时存储在第二图像存储器4中。根据临时存储在第二图像存储器中的第一二元化图像，相连字符估计部件5估计(判断)是否有相连字符。作为估计的标准是，如果某处黑色像素区域的横向尺寸比纵向尺寸宽，那么估计存在相连的多个字符。

当相连字符估计部件5估计存在相连的多个字符，并且输入了临时存储在第一图像存储器2中的明暗图像和临时存储在第二图像存储器4中的第一二元化图像后，第二二元化部件6进行操作，首先只从与第一二元化图像的黑色像素的位置对应的明暗图像像素中获取密度值，并以直方图形式记录下来。

然后，根据得到的直方图，第二二元化部件6使用上述已知的Ohtsu二元化方法获取平分直方图密度值的阈值值。只有当在二元化图像的黑色像素外的同一坐标的明暗图像的密度值大于所获取的阈值值时，将黑色像素转换为白色像素，并构成新的二元化图像(第二个二元化图像)。

由第二二元化部件6输出的第二二元化图像临时存储在第三图像存储器7中。字符分离部件8根据临时存储在第一图像存储器2中的明暗图像、临时存储在第二图像存储器4中的第一二元化图像和临时存储在第三图像存储器7中的第二二元化图像，确定相连字符的位置，并且根据有关这个已确定的字符相连位置的信息，将字符图像分离成单个字符。此时分离的是第一二元化部件3获取的字符图像(第一个二元化图像)。

根据相连字符估计部件5的估计结果，选择部件9或者选择第二图像存储器4存储的内容，或者选择字符分离部件8的输出。简而言之，当相连字符估计部件5估计不存在相连字符时，选择第二图像存储器4存储的内容，而当估计存在相连字符时，选择字符分离部件8的输出。

接下来，将参照图6所示的流程图详细描述本发明的字符提取方法。首先，将明暗字符图像输入到扫描仪1并临时存储在第一图像存储器2中(S1)。然后，在第一二元化部件3中使用Ohtsu二元化方法将第一图像存储器2中的明暗图像转换成第一二元化图像，并临时存储在第二图像存储器4中(S2)。

然后，根据在第二图像存储器4中获取的第一二元化图像，相连字符估计部件5判断是否存在相连字符(S3)。作为判断相连字符的标准是，当黑色像素区域的横向尺寸比纵向尺寸宽时，那么判断存在相连的多个字符。当判断不存在相连字符时，结束此处理过程。在这种情况下，选择部件9选择第二图像存储器4中的第一二元化图像，并将其提交给下一识别处理过程。

当判断存在相连字符时，第二二元化部件6只从明暗图像中提取密度值，此明暗图像与第一二元化部件3获取的第一二元化图像的黑色像素的位置相对应，并以直方图形式记录下来(S4)。然后，根据获得的直方图，利用Ohtsu二元化方法获取平分直方图密度值的阈值。当在二元化图像的黑色像素外的同一坐标的明暗图像的密度值大于所获取的阈值时，将黑色像素转换为白色像素，构成第二二元化图像并临时存储在第三图像存储器7中(S5)。

图7显示了在第一二元化部件3中二元化处理后的第一二元化图像的示例，图8显示了在第二二元化部件6中二元化处理后的第二二元化图像的示例，在图7和8中，黑色矩形是在二元化过程中认为是黑色像素的部分，而白色矩形是在二元化过程中认为是白色像素的部分。

当只针对字符区域重新划分密度直方图并二元化时，如上所述，由扫描仪的量化误差成为黑色象素的部分，即，字符之间的闭合部分或字符的轮廓部分由于密度值的原因被转换成白色像素。因此，在图8中，可以看到在字符“2”和“5”以及“5”和“3”之间产生了新的空白间隔(图中箭头所指部分)。

然后，在字符分离部件8中，根据第二二元化部件6获取的第二二元化图像、第一二元化部件3获得的第一二元化图像和扫描仪1输入的明暗图像，确定相连字符位置(S6)。我们将在下面对相连字符位置的确定进行详细的解释。然后，根据有关已确定的相连字符位置的信息，字符图像(第一二元化部件3获得的第一二元化图像)被分离成单个字符(S7)。在这种情况下，选择部件9选择字符分离部件8的输出，并将其提交给下一识别处理过程。

接下来，参照图9所示的流程图详细解释字符分离部件8使用的相连字符位置确定方法。首先，将第一二元化部件3获取的第一二元化图像与第二二元化部件6获取的第二二元化图像进行比较，并且对那些包含刚刚转换成白色像素的像素的列进行检测(S11)。然后，在步骤S11检测到的列中，检查第二二元化图像的纵向方向上是否有单独的黑色像素(S12)。

当上述检查的结果是在纵向方向上没有检测到单独的黑色像素时，操作转向步骤S14。当检测到有黑色像素时，检查扫描仪1输入的明暗图像(S13)。简而言之，即，在明暗图像的同一列上得到所述列的第一个二元化图像中在黑色像素的位置上的平均密度值。对在所述列左侧和右侧的几列执行相同的处理过程。当所述列是左侧和右侧列的分水岭时；简而言之，判断左侧和右侧几列的平均密度值是否小于所述列的平均密度值。当判断结果是该平均值小时，流程转向步骤S14，当该平均值大时，该图像不再是分离的候选对象(不分离该字符)。

然后，检查在步骤S12或步骤S13的处理过程中获取的列的左侧和右侧(两侧)是否有字符(S14)。从第二个二元化图像获取的白色像素除代表图8所示字符的相连点外，还代表字符边缘。因此必须检查所述列的两侧是否有字符。例如，根据第一个二元化图像，计算所述列两侧几列的黑色像素数目，并且如果黑色像素超过某一特定值，将认为有字符。

当在步骤S14的检查结果是没有发现字符时，图像不再是分离的候选对象(没有字符被分离)，并且当有字符时，由字符分离部件执行字符分离过程(S15)。

另外，如果在图9所示流程图的步骤S12中输入字符图像的扫描仪1的分辨率低，那么即使有一些黑色像素也将跳转到步骤S14。在这种情况下，作为判断分离候选对象的标准是，考虑在第一二元化部件6获得的第一二元化图像的黑色像素与第二二元化部件3获得的第二二元化图像的黑色像素之间的差异，并且将具有较大差异的列作为字符分离的候选列。在这种情况下，降低表示差异大小的阈值，使得扫描仪1的分辨率下降。

如上所述，根据上述实施例，有可能分离那些至今仅使用二元化图像不能分离的相连字符。另外，与只用明暗图像的所有处理相比，能够以低得多的工作量对相连字符的分离进行处理。因此，可以找到那些从形状角度很难发现的相连字符，并且可以高度精确和有效地进行分离。

如上详细描述，根据本发明，提供一种从形状角度来看可以高度精确和有效地找到并分离相连字符的字符提取方法。

Claims

1．一种在根据输入的字符图像来识别字符的字符识别设备中使用的字符提取方法，包括：

将输入的字符图像分离成字符区域和背景区域的第一步；

利用字符区域中字符图像的像素密度值，将第一步分离出来的字符区域分离成两个以上区域的第二步；以及

根据第二步获得的区域信息，将字符区域分离成一个一个字符的第三步。

2．根据权利要求1的方法，其中第三步包括利用作为分离点的像素行或像素列，将多个字符分离成单个字符的步骤，分离点在第一步获得的字符区域与第二步获得的区域之间存在很大差异。

3．根据权利要求1的方法，其中第三步包括对将要分离的区域两侧的密度值与将要分离的区域自身的密度值进行比较，并且只有当区域两侧的密度值小于将要分离的区域自身的密度值时，才将多个字符分离成单个字符的步骤。

4．根据权利要求1的方法，其中第二步包括根据直方图将多个字符分离成单个字符的步骤，直方图是用能应用于字符区域的诸位置的像素密度值构成的。

5．根据权利要求2的方法，其中根据第一步获取的字符区域的密度值与第二步获取的区域密度值的差异，确定分离点时，用于确定分离点的阈值将根据输入的字符图像的分辨率值而变化。

6．一种在根据输入的字符图像来识别字符的字符识别设备中使用的字符提取设备，包括：

用于将输入的字符图像分离成字符区域和背景区域的第一装置；

用于利用字符区域的字符图像的像素密度值，将第一装置分离出来的字符区域分离成两个以上区域的第二装置；以及

用于根据第二装置获得的区域信息，将字符区域分离成一个一个字符的第三装置。

7．根据权利要求6的设备，其中第三装置包括用于利用作为分离点的像素行或像素列，将多个字符分离成单个字符的装置，分离点在第一装置获得的字符区域和第二装置获得的区域之间存在很大差异。

8．根据权利要求6的设备，其中第三装置包括对将要分离的区域两侧的密度值与将要分离的区域自身的密度值进行比较，并且只有当区域两侧的密度值小于将要分离的区域自身的密度值时，才将多个字符分离成单个字符的装置。

9．根据权利要求6的设备，其中第二装置包括根据直方图将多个字符分离成单个字符的装置，直方图是用能应用于字符区域的诸位置的像素密度值构成的。

10．根据权利要求7的设备，其中根据第一装置获取的字符区域的密度值与第二装置获取的区域密度值的差异，确定分离点时，用于确定分离点的阈值将根据输入的字符图像的分辨率值而变化。

11．一种字符分离方法，包括下列步骤：

在第一存储器存储输入的字符图像；

将存储在第一存储器中的字符图像转换成第一二元化图像，并在第二存储器存储第一二元化图像；

根据存储在第二存储器中的第一二元化图像，判断字符图像是否相连；

当在判断步骤中判断字符相连时，通过从字符图像的像素中获取密度值，准备构成直方图，该字符图像与存储在第二存储器中的第一二元化图像的黑色像素位置相当；

根据准备好的直方图，获取用于平分直方图密度值的阈值；

只有当在二元化图像的黑色像素外处于字符图像的同一坐标的密度值大于所获取的阈值时，通过将黑色像素转换成白色像素并在第三存储器存储第二二元化图像，准备第二二元化图像；

根据第二二元化图像、第一二元化图像和存储在第一存储器中的字符图像，确定相连字符的位置；以及

根据有关确定的相连字符位置的信息，将第一二元化图像分离成单个字符。

12．根据权利要求11的方法，其中确定相连字符位置的步骤包括：

比较第一与第二二元化图像，以便检测包含刚刚转换为白色像素的列；

检查已检测到的列，判断在第二二元化图像的垂直方向上是否有单个黑色像素；

当检查结果是检测到有黑色像素时，检查存储在第一存储器中的字符图像，以便判断左侧和右侧几列的平均密度值是否低于各自列平均密度值；

根据第一二元化图像，计算各自列两侧几列的黑色像素数目；以及

如果计算黑色像素数目步骤的结果是黑色像素数目超过某一确定值，那么认为在列的两侧存在字符。

13．一种在字符识别设备中使用的字符提取设备，包括：

通过光学方式读取输入的文档图像而获取字符图像的扫描仪；

用于存储由扫描仪获取的字符图像的第一图像存储器；

用于对存储在第一图像存储器中的字符图像进行二元化操作，并输出第一二元化图像的第一二元化部件；

用于存储第一二元化部件输出的第一二元化图像的第二图像存储器；

根据存储在第二图像存储器中的第一二元化图像，估计是否有相连字符的相连字符估计部件；

当相连字符估计部件估计有相连的多个字符，根据存储在第一图像存储器中的字符图像、存储在第二图像存储器中的第一二元化图像，只从字符图像的像素中获取密度值，该字符图像处在与第一二元化图像的黑色像素的位置相当的位置上和记录下直方图；并且根据记录的直方图，在第一二元化图像的黑色像素外，字符图像的同一坐标的密度值大于获得的阈值时，通过将黑色像素转换成白色像素准备第二二元化图像的第二二元化部件；

用于存储由第二二元化部件准备好的第二二元化图像的第三图像存储器；以及

根据存储在第一图像存储器中的字符图像、存储在第二图像存储器中的第一二元化图像和存储在第三图像存储器中的第二二元化图像，确定相连字符位置，并根据确定的字符位置信息将相连字符图像分离成单个字符的字符分离部件。